申请试用
登录
核心技术
以原创技术体系为根基,SenseCore商汤AI大装置为核心基座,布局多领域、多方向前沿研究,
快速打通AI在各个垂直场景中的应用,向行业赋能。

ECCV 2022 Oral | 估计任意物体姿态:通往类别无关的姿态估计

2022-09-18

1.png 


Part 1 问题和挑战


2D姿态估计任务的目标是在预先人为定义物体关键点的前提下,预测图片中物体的关键点位置。如今,姿态估计已经被广泛应用于各个领域。例如,人体姿态估计有助于实现虚拟现实(VR)和增强现实(AR),车辆姿态估计是自动驾驶中的关键技术,动物姿态估计对于动物学研究和野生动物保护起到重要作用。


由于2D姿态估计的强大作用,现实生活中对于各种新物体进行姿态估计的需求层出不穷。然而,传统的姿态估计任务都是针对特定目标类别的。为了检测一种新物体的姿态,用户必须收集和标注大量此类物体的数据,并设计专门的姿态检测器进行训练。这势必带来很大的工作量和成本,并且对于领域外的研究者很不友好。为了顺应检测各种物体姿态的需求,作者定义了一个重要而困难的问题——类别无关的姿态估计(Category-Agnostic Pose Estimation,CAPE)任务。如图1所示,不同于传统的特定类别姿态估计任务,类别无关的姿态估计任务要求检测任意物体姿态,包括在训练集中没有见过的新类别。只要给定一张参考图像和对应的关键点定义,类别无关的姿态检测器即可在目标图像中检测相应的物体姿态。


2.png

图1:特定类别姿态估计 vs 类别无关姿态估计(CAPE)


传统的2D姿态估计方法往往将姿态估计当作回归任务,利用大量数据学习如何预测特定关键点位置,这使得它们只能处理特定类别的姿态估计任务。对于类别无关的姿态估计任务,由于需要预测具有不同关键点定义和关键点数量的物体,这些方法难以适用。同时,由于缺少包含多类物体的2D姿态估计数据集,类别无关的姿态检测器的研发受到了极大阻碍。因而,作者创新性地提出了姿态匹配网络(Pose Matching Network,POMNet),以匹配的思路解决类别无关的姿态估计问题,并收集了一个大规模数据集MP-100(Multi-category Pose)来训练和测试类别无关的姿态估计模型。


Part 2 方法介绍 


1. 类别无关姿态估计(CAPE)


本文提出的类别无关的姿态估计任务旨在对于任意类别物体,检测模型可以根据给定的关键点定义进行姿态预测。具体而言,对于没有见过的类别,只要提供一张或几张支持图像来提供关键点定义(无需大量数据重训网络),模型即可在这种类别上预测对应的关键点。因此,类别无关的姿态估计网络需要在基类上训练,在新类上测试。基类和新类是互斥的,从而保证测试类别没有在训练数据中出现过。


2. 姿态匹配网络(Pose Matching Network, POMNet)


image.png

3.png

image.png


image.png


2.2 关键点交互模块(Keypoint Interaction Module, KIM)


作者创新性地提出了关键点交互模块(Keypoint Interaction Module, KIM)来增强提取到的支持关键点特征。由于每个关键点特征是独立提取的,物体隐含的结构关系可能被忽略。同时,支持图像特征和目标图像特征也尚未对齐,这给姿态匹配带来了困难。因此,关键点交互模块同时抓住关键点之间的联系以及支持图像和目标图像之间的关系,来获得更加鲁棒的支持关键点特征。


具体而言,作者将支持关键点特征和目标图像特征都转换为若干个相同维度的token,再使用transformer网络进行处理。对于支持关键点特征,作者采用自注意力(self-attention)机制进行关键点之间的信息融合,使得网络通过关键点之间的关系学习物体的固有结构;对于目标图像特征,作者以支持关键点特征作为query,以目标图像特征作为key和value,采用交叉注意力(cross-attention)机制进行信息交互,从而将支持关键点特征与目标图像特征对齐。通过自注意力和交叉注意力机制的交替作用,关键点交互模块输出了更适合进行姿态匹配的支持关键点特征。


2.3 匹配头(Matching Head, MH)


匹配头(Matching Head,MH)旨在利用目标图像特征和支持关键点特征,找到目标图像中最可能的关键点位置。匹配头对每个关键点依次进行处理。作者首先将关键点特征在空间上进行复制,拓展成与目标图像特征相同的空间维度。拓展后的关键点特征与目标图像特征进行集联(concatenation),并通过卷积和反卷积将两种特征进行融合比较,预测每个位置包含该关键点的可能性,从而输出关键点热图。


Part 3 MP-100(Multi-Category Pose)数据集


由于现有的2D姿态估计数据集都只包含一种(大)类的物体,因此无法进行类别无关的姿态估计任务的训练和测试。因此,本文建立了一个包含多个大类物体的姿态估计数据集MP-100(Multi-category Pose)。如图3所示,MP-100数据集包含8大类、100小类的物体,总共有超过20K带姿态标注的物体实例。


MP-100数据集共被分为5组,每一组都包含训练集(70类14K实例)、验证集(10类2K实例)和测试集(20类2K实例)。在每一组中,训练集、验证集和测试集中所包含的类别是互斥的,使得类别无关的姿态估计模型在未训练过的新类上验证和测试其泛化能力。对于5组数据,其测试集包含的类别也是不相重叠的,最终计算5组测试集上的平均指标,最大限度避免类别差异引入的影响。除此以外,如图4所示,MP-100平衡了各个类别的实例数量,缓解了类别间长尾分布的问题。


4.png

图3:MP-100数据集,数据集包含8大类、100小类的物体姿态。



5.png


图4:MP-100数据集各类物体实例数量



Part 4 实验结果 


1. MP-100数据集上的基准结果


由于缺乏类别无关的姿态估计模型,作者基于小样本学习方法,在MP-100数据集上构建一些基线方法,包括ProtoNet(Prototypical Networks),MAML(Model-Agnostic Meta-Learning)和Fine-tune。本文提出的姿态匹配网络(POMNet)将类别无关的姿态估计任务视为匹配问题,将姿态预测过程与物体类别和关键点数量解耦开来。同时,关键点交互模块(KIM)进行了关键点之间的信息交换,抓住了物体的结构信息。因此,如表1所示,POMNet在MP-100上的性能远超其他基线方法。


6.png表1:MP-100数据集上的类别无关姿态估计结果。POMNet在5-shot和1-shot设置下均优于基线方法。


2. 跨大类姿态估计


为了进一步测试模型的泛化性能,本文还进行了跨大类的姿态估计实验。作者采用“Leave-One-Out”的实验设计,即在1个大类上进行测试,在其他7个大类上进行训练。如表2所示,POMNet在困难的跨大类任务上仍然优于其他方法。然而,对于一些少见的类别(车辆Vehicle和家具Furniture),所有方法都遇到了挑战。这是由于对于稀有的类别,网络难以提取鲁棒的特征。并且,车辆中存在很多遮挡的关键点,而家具的类内物体差异很大,给这两种类别的跨大类预测带来了更大的困难。


7.png

表2:跨大类姿态估计测试。POMNet优于其他方法,但在稀有类别上仍有提升空间。


3. 消融实验


作者展示了POMNet中关键点交互模块(Keypoint Interaction Module, KIM)和匹配头(Matching Head, MH)给模型带来的提升。如表3所示,本文提出的KIM(包括自注意力(Self-Attent.)和交叉注意力(Cross-Atten.)机制)和MH均在很大程度上提升了模型性能。


8.png

表3:POMNet各模块的效果。KIM和MH极大提升模型性能。


作者还验证了数据集和方法设计的合理性。如表4所示,更多的训练类别能够使得模型在新类上有更好的测试性能,这证明了提出包含100类物体的MP-100数据集的重要性。此外,如果退化到传统的特定类别姿态估计(在同一种类别上训练和测试),POMNet也能取得和传统姿态估计网络近似的性能。


9.png

表4:Left:训练集类别数量(#Train)对实验结果的影响;Right:仅在同一个类别上训练和测试,POMNet和传统姿态估计方法(SBL)取得接近的效果。


4. 可视化效果


如图5所示,根据支持图像给定的关键点定义,POMNet可以在没见过的新类上预测出鲁棒的姿态估计结果。对于一些歧异和遮挡的困难情形,POMNet也出现了错误预测的情况。


10.png

图5:POMNet在测试新类上的可视化效果。最后一列展示了失败的例子。


Part 5 结论


本文提出了一个类别无关的姿态估计(CAPE)任务,旨在用一个模型预测任何类别的物体姿态,极大减少了数据标注和模型训练的成本。除了有助于提升姿态估计领域的发展(例如关键点预标注),该任务也有机会促进其他视觉研究的发展(例如基于关键点的物体追踪、语义分割和图像匹配等)。同时,本文提出了姿态匹配网络(POMNet)来解决该任务,将姿态估计问题视为匹配问题,为姿态估计提供了全新的视角。此外,一个包含100类物体的姿态估计数据集MP-100也被用以进行类别无关姿态估计模型的训练和测试。类别无关的姿态估计是一个重要而困难的问题,如何解决稀有类别泛化、类内物体差异、自遮挡和歧义等问题,值得更多的研究和探索。


相关资料


项目地址:

https://github.com/luminxu/Pose-for-Everything


论文链接:

https://arxiv.org/abs/2207.10387

产品试用
填写此简单表格,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00,13:00-18:00
合作伙伴招募