申请试用
登录
核心技术
以原创技术体系为根基,SenseCore商汤AI大装置为核心基座,布局多领域、多方向前沿研究,
快速打通AI在各个垂直场景中的应用,向行业赋能。

CVPR 2020 Oral | : 真实世界下的大规模多标签目标检测算法解读

2020-07-23

导读:在CVPR 2020上,商汤搜索与决策团队与中科院自动化所合作,针对超大规模多标签目标检测任务,提出了有效的解决方案。该工作以真实世界中的通用检测任务为背景,分析了主要面临的痛点,在损失函数和采样方法上提出了创新,有效地改善了痛点并在量化指标上有显著提升。


背景及分析

在深度学习中,数据始终是至关重要的因素之一。随着硬件与算法的发展,在学术界和工业界,对数据规模的需求也越来越强。然而在大规模数据的场景下,出现了许多新的挑战,也使得算法的边界将产生新的定义。

本文以Open Images数据库为例来模拟真实世界下的超大规模检测,该数据库拥有170万训练图片,1240万框图并包含500个目标类别。在该场景下,我们分析了主要面临的痛点问题:

121.png

图1


1.显式多标签问题

与传统的单标签目标检测不同,真实世界下的物体往往具有多种标签类别,以图1(a,b)为例,目标可同时具有多种并列的标签类别,也可同时具有父子继承关系的多标签类别。


2.隐式多标签问题

超大规模数据由于其规模,往往采用机器辅助人工的手段进行标注,在训练数据中会频繁出现漏标和混标的情况。以图1(c,d)为例,部分目标会出现缺失子类标签的情况,另一些易混淆类别的目标会随机性地互标。


3.类别的长尾效应

在学术集中,训练数据的类别一般位置在较均衡的分布,然而在实际应用中,类别的分布呈现出严重的长尾效应。

多标签问题的解决方案­­­

面对显示和隐式的多标签问题,检测中常用的softmax将导致多标签之间产生响应值的竞争。这种竞争不仅使得多标签的预测概率明显降低,还会导致训练过程中优化目标的方向错误。

QQ图片20200725214757.png

反传梯度为:

aaa1.png

其中QQ图片20200725194149.png表示目标的类别响应,m代表该目标的positive标签个数,K为positive标签集合,y表示每个类别的二分标签。

 

针对以上观察,本文提出了concurrent-softmax,在训练和测试过程中,根据目标的多标签和类别的隐性依赖关系输出每种类别的概率值。该算法有效地解决了训练过程中的多标签优化难点,并改善了预测过程中多标签的竞争问题。

qqqq1.png

反传梯度为:

qqqqq2.png

 

其中QQ图片20200725192934.png表示在训练数据中统计的类别i相对于类别j的共存概率分布。

 

表1展示了concurrent-softmax与传统loss的结果对比,表2展示了concurrent-softmax在训练和测试时的效果。

表1

qqqq3.png

表2

123.png


长尾效应的解决方案­­­

长尾效应的主要痛点主要在于部分类别出现频率过高,部分类别出现频率极低,天然采样方法从而导致检测器对稀少类欠拟合。典型的解决方案是均匀采样法,即每种类别图片的采样频率一致,然而此举将导致对稀少类的严重过拟合,且高频类别中大量的训练数据无法被采样到,导致高频类的训练也不充分。本文提出了混合采样和混合训练法以渐进式地逐步改善以上两个问题。

­­­

首先,我们以天然采样为基础,设计了混合采样方式,其中天然采样方式下的单类采样频率为:

H.png

均匀采样频率为:

QQ图片20200725195019.png

混合采样频率则设计为:

image.png

其中n表示某类别图片数量,QQ图片20200725193005.png表示平滑参数,QQ图片20200725193032.png定义如下:

image.png

该采样方式能有效的增加稀少类的采样频率并缓解过拟合。表3展示了混合采样方式在性能上的明显提升,图2分别展示了不同平滑稀疏下采样方式对高频和低频类的单类精度影响。

表3

K.png

L.png

图2

其次,我们采用混合训练方式,即用天然采样方法预训练模型,并采用混合采样方式微调模型,保证了高频类的每个样本都被采样过,保证了对高频类的充分学习。表4展示了混合训练方式带来的精度收益。

表4

M.png

 

结语­­­

该文章对真实场景下的大规模多标签目标检测问题做了较为全面的分析,并提出了有效可靠的解决方案,为未来类似场景下研究提供了一定的经验和思路。