申请试用
登录
核心技术
以原创技术体系为根基,SenseCore商汤AI大装置为核心基座,布局多领域、多方向前沿研究,
快速打通AI在各个垂直场景中的应用,向行业赋能。

CVPR 2023 Highlight | Consistent-Teacher:半监督目标检测超强SOTA

2023-09-30

1.png

2.jpg


半监督目标检测的现状总结


目标检测是计算机视觉领域的核心问题之一,其重要性不可忽视。然而,要实现准确的目标检测,需要大量标记的数据,这也是该领域的一个关键问题。换句话说,数据标注是目标检测算法的基础,缺乏足够的标记数据将会极大地限制算法的性能和应用范围。因此,解决数据标注问题是实现准确、高效目标检测的必要条件。


半监督学习(SSL)是一种利用少量有标签数据和大量无标签数据进行训练以提高模型性能的机器学习方法。在图像分类、目标检测等领域,SSL已经被广泛应用。在目标检测领域,半监督目标检测(SSOD)能够有效利用大量无标注数据进行训练,具有重要的应用价值。


SSOD的基本模式是Teacher-Student[4,5,6,7]模式。该方法首先利用少量已标注数据对初始模型进行训练,同时使用教师模型对大量未标注数据进行推断,并将推断结果作为伪标签加入训练集。期望学生模型能够准确检测这些伪标签,并对增强后的输入样本做出一致的预测。


我们首先介绍这篇论文的基线模型Mean-Teacher,方便读者对这篇论文有更好的理解。


3.png


如图所示,Mean-Teacher[1]是一种半监督目标检测框架。它利用有标签数据和无标签数据进行训练,其中Teacher模型生成伪标签,并给Student模型作为监督信号。Teacher模型的参数由是Student模型参数的指数滑动平均(Exponential Moving Average)得到。相对应,Student模型在进行过增强的未标注样本上进行训练,利用Teacher模型推断得到的伪标签进行监督。通过这种方式,Mean-teacher实现多视角一致的自监督训练。


在Mean-Teacher的基础上,现有半监督目标检测方法通过各种方法提高伪标签的准确性,但由于缺乏足够的标注数据,训练过程中常常出现伪标签边界框质量较差的问题,这会导致模型的不稳定性和性能的下降。


本文对伪标签质量较差的原因进行系统性的分析,发现关键问题在于伪标签的不稳定性不一致性,从而给予Student模型不稳定以及不一致的伪监督信号。


伪标签的不稳定性:SSOD的阿喀琉斯之踵


在半监督目标检测中,生成的伪标签存在不稳定(Inconsistency)的问题,这不仅影响伪标签的准确性,也会导致模型训练的不稳定和性能下降。


主流的半监督目标检测器生成伪标签时是基于当前时刻的Teacher模型的预测。与全监督训练时的静态标签(在训练过程中不会变化)不同,一个无标签图像中一个物体的伪标签可能在训练过程中某个时间点出现,不断变化,直至最后稳定或消失。在使用这种极不稳定的伪标签监督下进行训练会导致一系列问题,如模型性能下降、难以达到理想效果等。我们列举了三种不稳定性产生的原因如下:


分配不一致


当前主流的两阶段(Two-stage)或者单阶段(Single-stage)目标检测网络都使用基于IoU阈值的静态anchor分配方法,这种方法对于伪标签框中的噪声非常敏感。即使伪标签框中只有微小的噪声,伪标签的不稳定性也会导致anchor分配的不同。


本文通过下图说明在Mean-Teacher框架下RetinaNet[2]检测器中,伪标签不稳定性会导致的问题。绿色和红色的边界框是北极熊的实际边界框和伪边界框,红点是伪标签的锚定框。热图显示了教师模型预测的密集置信度得分。


在Mean-Teacher中,由于Teacher生成伪标签的不稳定性,在利用伪标签对Student进行伪监督训练时,Student会不时地将anchor assign到旁边的木板上。由于这种不一致的标签,Student模型最终会过拟合噪声并导致附近的木板被检测到并错误地分类为北极熊。



4.png

本文同时展示了一个anchor box 在训练过程中动态变化的动图。如下图(a)为Mean-Teacher,使用基于IOU阈值的静态anchor分配方法,随着训练进行,由于Teacher生成伪标签的不稳定性,在利用伪标签对Student进行伪监督训练时,Student会不时的将anchor assign到旁边的木板上。而本文提出的Consistent-Teacher,如下图(b)则可以稳定持续的定位到正确的前景物体并分配正确的分配anchor。


5.gif

(a) Mean-Teacher 


6.gif

(b) Consistent-Teacher


这种对噪声的过拟合同样可以在分类损失图中看到,不一致的伪目标会导致分类分支过拟合,而回归损失则难以收敛(如下图)。


7.png


任务不一致


在主流的半监督目标检测方法中,分类与回归任务的不一致也是导致不稳定性的一个重要原因。


为了筛选高质量的伪标签,通常会使用分类置信度作为指标,并设置阈值来筛除低置信度的伪标签框。然而,一个伪标签框的分类置信度好坏并不一定能反映其定位准确度的高低。


因此,利用分类置信度进行伪标签筛选的方法会进一步加剧伪标签在训练过程中的不稳定性。如下图(a)所示,Mean-Teacher中存在大量分类置信度高但是回归不准确(与GT的IOU较低)的定位框。


8.png

(a) 任务不一致 

9.png

(b) 时序不一致


时序不一致


固定阈值筛选伪标签的方法同样会导致不一致性。在半监督目标检测中,为了筛选高质量的伪标签进行训练,常常采用一个固定的阈值对分类的置信度进行筛选。然而,这种方法会导致在训练不同阶段的不一致性。


在训练初期,由于模型对预测结果不够自信,固定的阈值会导致过少的伪标签框被筛选,而随着模型的不断训练,每张图的伪标签框数量会逐渐增多,直到训练后期过多。


这种伪标签框数量的不一致同样会导致Student网络训练的不一致。如上图(b),不同threshold的Mean-Teacher均会出现“伪标签框数量随着训练逐渐增多”的不一致现象。


Consistent Teacher


在分析现有半监督目标检测伪标签的偏移问题与不稳定性后,本文提出了一种新的半监督目标检测方法Consistent-Teacher,整体如下图。


Consistent-Teacher设计了三种模块来解决上述问题,包括自适应的标签分配(ASA),3D特征对齐(FAM-3D)和基于高斯混合模型的自适应阈值(GMM-based Threshold)。


10.png


Consistent-Teacher包含一个Teacher模型和一个Student模型,其中教师模型的参数是学生模型参数的指数滑动平均(EMA)。


在训练的每一个iteration,学生模型一方面在有标签数据上进行有监督训练;另一方面,教师模型对无标签数据进行标注,得到伪标签框,并在对无标签数据进行了强数据增强后,训练学生模型。


在这个教师-学生模型的基础上,本文提出三种模块来解决上述伪标签不一致问题。


自适应的标签分配(ASA)


上文提到静态anchor分配由于使用IoU阈值分割来分配anchor,略微变化就会导致分配的不同。本文则提出采用自适应的标签分配 (ASA)。


与静态anchor分配不同,ASA为每一对anchor-真实值边界框计算一个匹配损失,然后选择匹配损失最小的若干对anchor-真实值边界框作为最终的anchor分配。


3D特征对齐 (FAM-3D)


其次,为了解决上文提到的分类与回归任务之间存在的不一致问题,本文提出3D特征对齐模块 (FAM-3D),通过使分类特征自适应地检索到最佳回归特征,以执行回归任务。以此,FAM-3D成功地将分类和回归特征进行了对齐。


具体而言,FAM-3D在检测头中额外增加一个分支,用于预测最优回归特征位置的偏移量。FAM-3D中的“3D”意味着这个位置偏移量不仅在x和y维度上预测回归特征的偏移量,同时还预测特征金字塔中进行跨层的偏移量预测。


我们使用计算出偏移量对分类特征进行重排,即可得到与分类特征对齐的最优回归特征。这个偏移量是通过端到端优化回归特征位置头获得的,而不需要手工标注的监督。


最后模型利用分类特征进行分类,并利用对齐的回归特征回归检测框。


基于高斯混合模型的自适应阈值(GMM-based Threshold)


最后,为了解决硬阈值选择伪标签带来的不一致问题,本文提出使用动态的阈值。它随着训练过程中的模型能力变化,调整伪标签的阈值。


为了动态的调整伪标签框筛选的阈值,Consistent-Teacher将伪标签框筛选的过程看作是一个二分类过程,即正样本类为筛选得到的高质量伪标签框,负样本类为要筛除的低质量标签框。


本文采用高斯混合模型(GMM)对这个二分类进行建模。将正样本类别和负样本类别分别看作两个高斯分布,通过Expectation-Maximum(EM)算法迭代求解高斯混合模型的最优参数,通过高斯混合模型得到分类阈值(区分正样本和负样本)。


在训练中,Consistent-Teacher维持一个class-wise的队列存储用于建模GMM的的样本,并在训练过程中不断通过GMM获得动态更新的阈值进行自适应的筛选样本。


验证SSOD的不一致性


首先本文画出了伪标签的准确性,以及伪标签一致性随着训练不断进行的变化图。本文通过伪标签与真实标签的mAP来衡量伪标签的准确性,并通过两个连续的checkpoint对同一个样本预测的一致性作为伪标签的一致性衡量标准。


如下图,Mean-Teacher的伪标签不一致性远高于 Consistent-Teacher ;随着训练进行不断增加,Mean-Teacher的伪标签的mAP也远低于Consistent-Teacher。


11.png


下左图和中间的图显示,随着训练的进行,Mean-Teacher的伪标签框数量逐渐增多,会导致训练的不一致性。而本文提出的Consistent-Teacher通过GMM动态的调整并缓慢提高阈值,可以维持不同训练阶段中,伪标签框数量相对稳定。


12.png


在上右图中,Mean-Teacher预测了很多分类置信读高但是定位不准确的伪标签框(左边红色框)。而本文提出的Consistent-Teacher预测的大多数是分类置信读高且定位准确的伪标签框,这说明本文提出的方法可以很好的对齐分类与回归的特征并且预测更为准确的伪标签框。


实验结果


与SOTA的比较


本文在MS-COCO 2017以及PASCAL VOC数据集上进行实验。


在MS-COCO 2017不同比例的有标签的数据上,Consistent-Teacher均获得了远超SOTA的结果。如下图可见,Consistent-Teacher在1%、2%、5%以及10%的比例(有标注数据的比例)上分别获得了25.30、30.40、36.10以及40.00的mAP,这个结果稳定地比之前的SOTA Dense Teacher[3]高出3个mAP。


13.png

在COCO-Addition(利用全部的MS-COCO 2017作为有标注数据,并使用额外的COCO未标注数据)上本文同样获得了惊人的效果。如下图Table2,Consistent-Teacher获得了47.20的超强性能,比SOTA高1个mAP。在VOC的实验上本文提出的Consistent-Teacher同样获得了SOTA的结果。


14.png


以上实验很好地说明,通过解决不一致问题,本文提出的Consistent-Teacher可以有效的提升半监督检测模型的性能。


消融实验


本文进一步进行消融实验说明本文提出的三个模块的有效性。

15.png


上图Table 5中可见,FAM-2D可以带来0.6的提升,而FAM-3D可以进一步带来0.4个点的提升。


在Figure 7和8中,通过在不同比例的有标签数据上进行训练,及对比不同固定阈值的模型,GMM可以带来稳定的0.5个点的提升。


传送门


论文地址

https://arxiv.org/abs/2209.01589


Code地址

https://github.com/Adamdad/ConsistentTeacher


项目主页

https://adamdad.github.io/consistentteacher/


References:


[1] Tarvainen A, Valpola H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results[J]. Advances in neural information processing systems, 2017, 30.

[2] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.

[3] Zhou H, Ge Z, Liu S, et al. Dense teacher: Dense pseudo-labels for semi-supervised object detection[C]//Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part IX. Cham: Springer Nature Switzerland, 2022: 35-50.

[4] Xu M, Zhang Z, Hu H, et al. End-to-end semi-supervised object detection with soft teacher[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 3060-3069.

[5] Jeong J, Lee S, Kim J, et al. Consistency-based semi-supervised learning for object detection[J]. Advances in neural information processing systems, 2019, 32.

[6] Sohn K, Zhang Z, Li C L, et al. A simple semi-supervised learning framework for object detection[J]. arXiv preprint arXiv:2005.04757, 2020.

[7] Liu Y C, Ma C Y, He Z, et al. Unbiased teacher for semi-supervised object detection[J]. arXiv preprint arXiv:2102.09480, 2021.