申请试用
登录
核心技术
以原创技术体系为根基,SenseCore商汤AI大装置为核心基座,布局多领域、多方向前沿研究,
快速打通AI在各个垂直场景中的应用,向行业赋能。

ECCV 2022 Oral | 无需标注!将CLIP直接用于分割

2022-09-18

1.png


Part 1 传统的微调方法破坏了CLIP的开放集能力


正如导读中所提到的,我们发现CLIP在密集预测任务上存在巨大潜力:同时识别多个目标、理解目标间关系、目标不局限于固定词汇集。因此,我们选定语义分割作为目标任务,对CLIP展开探索。


一个自然而简单的想法就是,将CLIP的图像编码器的权重加载到骨干网络,同时将目标物体的单词输入到CLIP的文字编码器中得到词向量,并用这些词向量生成分类器。以DeepLab为例:


image.png


Part 2 无需训练的MaskCLIP


有了前车之鉴,我们转而避免引入新的参数并尽量保持CLIP原有的特征空间不变。让我们重新仔细检视一下CLIP的图像编码器,特别是它独特的全局注意力池化层(类似于Transformer的注意力层):


image.png3.png

image.png4.png


Part 3 利用MaskCLIP的预测 作为伪标签训练分割模型


虽然MaskCLIP避免了对CLIP进行大幅修改从而保证了视觉-语言关联的完整性且不需要任何训练,但是由于CLIP的图像编码器并不是为语义分割设计的(例如ResNet的32倍降采样),大大限制了MaskCLIP的性能。因此我们进而提出MaskCLIP+,如上图所示,其核心思想为将MaskCLIP的预测用作伪标签,训练更适合分割任务的模型(例如DeepLab)。可以预期的是,MaskCLIP+的性能在训练过程中会超过MaskCLIP,这时再使用MaskCLIP提供监督性能将不会继续提升。因此,一旦观察到这种现象,我们在后续的训练中将使用MaskCLIP+为自己提供伪标签,即自学习。


MaskCLIP+可以被自然地用到零样本语义分割任务上:对于提供标签的类别使用标签监督,对于无标签类别,用MaskCLIP提供的伪标签监督。因此,我们提供了与现有SOTA的对比,并发现MaskCLIP+远超现有SOTA,甚至几乎到达全监督模型的水平。


Part 4 实验结果


5.png


以上测试图片均来自于网络。我们在不使用任何标注的情况下,测试了MaskCLIP(+)对于诸如:颜色、模糊度、卡通人物、汽车品牌等目标的分割性能。


6.png


我们在这张表格中将MaskCLIP+与现有的零样本分割SOTA方法在PASCAL VOC、COCO-Stuff、PASCAL Context上进行了对比。ST为Self-Training的缩写。


相关资料


项目地址:

https://www.mmlab-ntu.com/project/maskclip


论文链接:

https://arxiv.org/abs/2112.01071


开源代码:

https://github.com/chongzhou96/MaskCLIP