申请试用
登录
核心技术
以原创技术体系为根基,SenseCore商汤AI大装置为核心基座,布局多领域、多方向前沿研究,
快速打通AI在各个垂直场景中的应用,向行业赋能。

CVPR 2020 | HFE: 多层级的特征构建方式解读

2020-07-30

1.png

 

导读:CVPR 2020上,商汤城市计算团队提出了一个针对属性分类的多层次特征的构建方式即利用身份(ID)信息辅助构建多层次的特征,该工作为特征构建方式提供了新的思路相比于已有的属性分类方法,HFE在特征表示和性能指标上均有显著优势。

动机

直接使用Cross Entropy Loss训练的卷积神经网络分类,只是把同一类的特征聚拢到一起,对于类内没有约束。我们在带有ID信息的属性数据集上进行实验,只使用属性标签进行分类时,发现类内分布非常杂乱,同一个ID的图片会分散在类内的各个位置。这说明只使用属性标签训练的分类网络,无法正确的将 ID 相同的图片在特征空间上映射到足够近的距离,因此其特征表达不够稳定,容易受到场景变化等因素的干扰,在输入发生变化时,特征会发生比较大的偏移,增加了分类错误的可能性我们的方法在此处做出改进,使用ID和属性标签作为两个层级的监督,在特征空间里构建多层级的逻辑结构,以提高模型的表征能力。

该工作的研究动机在于:

1.  利用身份信息来限制同一个人的不同场景、不同角度、不同姿态的样本特征聚集地更紧密,使特征对于场景、角度、姿态等的变化更鲁棒。

2.  通过身份的限制,属于同一个ID的简单样本可以把本来难学的困难样本在特征空间上拉近,从而使困难样本更容易学习。

3. 利用身份的信息来构造层次性的属性特征空间,避免把两种特征简单地嵌入到同一特征空间,而是统一到属性的特征空间,使构造的特征空间更合理。

如下图所示:

2.png

方法设计

我们提的方法整体框架如下图,主要由一个骨干网络,加多个属性分支组成。共享的骨干网络用来学习所有属性的共同特征,而每个单独的属性分支用来学习各个属性各自的特征。

3.png

对于损失函数,首先我们沿用传统的方法,采用交叉熵(Cross Entropy, CE)损失函数进行属性分类

4.png

这里N代表图片样本个数,M代表属性个数,QQ图片20200730095016.png代表第i个样本的第j个属性的标签,QQ图片20200730095052.png代表对第i个样本第j个属性的预测概率。

CE基础上结合我们设计的多层次特征损失函数,总的损失函数可以写成如下所示。这里w表示权重。

5.png

一.  多层次特征损失函数

多层次特征损失函数主要由两个三元组组成,一个是传统的类间三元组如下。

6.png

其中QQ图片20200730095119.png表示样本ij属性的特征,称为锚样本。QQ图片20200730095138.png表示和锚样本QQ图片20200730095206.png同属一个属性类别但离锚样本最远的正样本的特征。QQ图片20200730095222.png表示和锚样本QQ图片20200730095206.png不属于同一个属性类别但离锚样本最近的负样本的特征。QQ图片20200730095303.png表示类间差额,QQ图片20200730095324.png表示样本i的身份,而d()表示两个样本的距离。

为了形成细粒度的多层次的特征空间,我们利用身份信息构建类内三元组,如下。

6.png

这里QQ图片20200730100227.png表示和锚样本QQ图片20200730095119.png同属于一个属性类别也同属于一个身份的离锚样本最远的正样本的特征。QQ图片20200730100246.png表示和锚样本QQ图片20200730095206.png同属一个属性类别但不属于同一个身份的离锚样本最近的正样本的特征。QQ图片20200730100314.png表示类内差额。

结合上述的两个loss,我们可以同时维护类间和类内的特征空间。如下图所示,通过五元组的限制,我们可以维护一个多层级的相对距离,从而达到构建层次化的特征空间的目的。

8.png

二.  绝对边界正则项

上述的损失函数虽然能同时维护类间特征和类内特征,但是只考虑了相对距离。从绝对距离角度上看,并不能保证在整个训练集中,锚样本和正样本的距离都小于锚样本和负样本的距离。为此,我们设计了绝对边界正则项(Absolute Boundary RegularizationABR)如下

9.png

因此我们的多层次特征损失函数由上述三项组成。

10.png

三.  动态权重

在训练初始的时候得到的特征空间并不可靠,由于五元组的选择依赖于特征空间,如果一开始就用较大的权重,可能会带来噪音。所以我们为上述损失函数设计了一个动态权重,通过权重动态增大,使特征空间慢慢地从原始的状态转向层次化的状态。

11.png

这里T表示整个训练的迭代次数,而iter表示当前的迭代次数。w0是一个预先设置好的常数。

实验结果

本文使用了两个行人属性数据集:Market 1501[1]和Duke[2],和一个人脸属性数据集:CelebA[3],进行了实验。在三个数据集上的实验结果表明,HFE比现有的最先进的方法更具竞争力,如下表所示:

12.png

13.png

14.png

为了进一步分析各个组件的效果,我们在market 1501上做了详尽的对比实验,如下表所示,可以看到每个部分都是有各自的提升效果的。

15.png

为了直观地观察特征空间的变化,我们对一个属性在不同loss下的特征空间进行了可视化,如下图所示。可以看到,每增加一个组件,类内的特征都更紧密,而类间的特征距离更远,界限更清晰。而且HFE确实可以形成更细粒度的类内特征空间,同时让类内更紧凑,类间更清晰,满足我们的预期。

16.png

下图为属性可视效果对比,可以看出,对于属性比较清晰可见时,三个方法都能判断正确;而当遮挡发生或图像模糊时,CE和APR[4]出现错误预测的概率较高,HFE却还是能预测正确。

17.png

 

传送门

论文地址:

https://arxiv.org/abs/2005.11576

欢迎感兴趣的朋友阅读和交流。

 

References

[1] Liang Zheng, Liyue Shen, Lu Tian, Shengjin Wang, Jing- dong Wang, and Qi Tian. Scalable person re-identification: A benchmark. In Proceedings of the IEEE international con- ference on computer vision, pages 1116–1124, 2015.

[2] ZhedongZheng,LiangZheng,andYiYang.Unlabeledsam- ples generated by gan improve the person re-identification baseline in vitro. In Proceedings of the IEEE International Conference on Computer Vision, pages 3754–3762, 2017.

[3] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In Proceedings of the IEEE international conference on computer vision, pages 3730–3738, 2015.

[4] Yutian Lin, Liang Zheng, Zhedong Zheng, Yu Wu, Zhi- lan Hu, Chenggang Yan, and Yi Yang. Improving person re-identification by attribute and identity learning. Pattern Recognition, 2019.