核心技术
产品服务
客户案例
新闻中心
投资者关系
关于商汤
加入我们
简体中文
技术能力
商汤研究
人工智能基础设施
企业服务智能化构筑领先数字化能力,精准发掘更多价值
企业方舟通用智能硬件
企业方舟行业产品
企业方舟通用云服务
AI-as-a-Service
城市管理智能化提升城市运营效率,打造创新应用场景
城市方舟通用智能硬件
城市方舟行业产品
汽车出行智能化智慧出行 与AI同行
个人生活智能化AI 赋能,万物智联
移动终端SDK
企业服务智能化
城市管理智能化
汽车出行智能化
个人生活智能化
关于我们
SenseCore 商汤大装置AI云
SenseFoundry Enterprise 商汤方舟企业开放平台
SenseFoundry 商汤方舟城市开放平台
SenseAuto 商汤绝影智能汽车平台
SenseME 水星智能移动终端平台
SenseMARS 火星混合现实平台
SenseHome 智能家居
SenseCare 商汤智慧医院
立即体验 60 多种产品和服务
官方新闻
媒体报道
企业管治
财务报告
公告及通函
投资者活动和信息
企业社会责任
AI伦理与治理
商汤生态
渠道与生态合作伙伴
诚信合规
走进商汤
简历投递
商汤动态
以原创技术体系为根基,SenseCore商汤AI大装置为核心基座,布局多领域、多方向前沿研究,快速打通AI在各个垂直场景中的应用,向行业赋能。
商汤研究始终坚持原创,不断突破创新。具有人工智能领域深厚的学术积累,具备健全的人才培养机制,已与国内外五十余所一流高校和科研院所建立了深度合作关系,并与众多行业同仁齐心共建AI生态圈。
了解更多产品
了解相关案例 申请试用
构筑领先数字化能力,精准发掘更多价值
提升城市运营效率,打造创新应用场景
智慧出行 与AI同行
我们的SenseME 水星智能移动终端平台提供包括SDK、AI传感器和ISP芯片等全套产品,能够支持诸多物联网设备,以促进感知智能和内容增强
SenseMARS平台通过对物理世界的数字重建、虚拟化身和软件智能体,创造全新的沉浸式和交互式的元宇宙体验
AI赋能,万物智联
助力医院打造“五位一体”的全栈式“未来智慧医疗”服务新模式
业务涵盖智慧商业、智慧城市、智慧生活、智能汽车四大板块
编者按:早在2018年的COCO比赛中,商汤科技研究员和香港中文大学-商汤联合实验室(MMLab)同学组成的团队,在最核心的物体检测(Detection)项目中夺得冠军。商汤团队创造性地开发了全新的技术,尤其是提出了新的多任务混合级联架构(Hybrid Task Cascade),通过把不同子任务进行逐级混合,有效地改善了整个检测过程中的信息流动。
近日,基于 COCO 2018比赛团队合作的成果,MMLab团队又取得新突破,发表了论文《Hybrid Task Cascade for Instance Segmentation》,该论文已入选CVPR 2019。论文提出了一种新的实例分割框架,设计了多任务多阶段的混合级联结构,并且融合了一个语义分割的分支来增强Spatial Context。这种框架取得了明显优于Mask R-CNN和Cascade MaskR-CNN的结果。本文是对《Hybrid Task Cascade for Instance Segmentation》的论文解读。
背景
实例分割(Instance Segmentation)是一个和物体检测非常相关但是更难的问题,在物体检测的基础上,还要求分割出物体的像素,如下图所示。
实例分割这个问题近几年的发展在很大程度上是由COCO数据集和比赛推动的。从MNC,FCIS到PANet,都是在COCO Instance Segmentation Track 上拿第一名的方法。Mask R-CNN是个例外,因为Paper公开得比较早,所以是2017年前几名队伍的基本方法。同理可知,Hybrid Task Cascade(HTC)在 COCO 2018 的比赛中也取得了第一名。
概述
级联是一种比较经典的结构,在很多任务中都有用到,比如物体检测中的CC-Net,CascadeR-CNN,语义分割中的Deep Layer Cascade等等。然而将这种结构或者思想引入到实例分割中并不是一件直接而容易的事情,如果直接将Mask R-CNN和Cascade R-CNN结合起来,获得的提升是有限的,因此我们需要更多地探索检测和分割任务的关联。
在本篇论文中,我们提出了一种新的实例分割框架,设计了多任务多阶段的混合级联结构,并且融合了一个语义分割的分支来增强Spatial Context。这种框架取得了明显优于Mask R-CNN和Cascade Mask R-CNN的结果。
方法
整个框架的演进可以用四张图来表示,其中M表示Mask分支,B表示Box分支,数字表示Stage,M1即为第一个Stage的Mask分支。
进阶准备:Cascade Mask R-CNN
由于Cascade R-CNN在物体检测上的结果非常好,我们首先尝试将Cascade R-CNN和Mask R-CNN直接进行杂交,得到子代Cascade Mask R-CNN,如上图(a)所示。在这种实现里,每一个Stage和Mask R-CNN 相似,都有一个Mask分支和Box分支。当前Stage会接受RPN或者上一个Stage回归过的框作为输入,然后预测新的框和Mask。这也是实验中我们所比较的Baseline,从实验表格可以看到其实这个Baseline已经很强了,但是仍然存在明显的问题,主要在于Cascade MaskR-CNN相比Mask R-CNN在Box AP上提高了3.5个点,但是在Mask AP上只提高了1.2个点。
进阶第一步:Interleaved Execution
Cascade R-CNN虽然强行在每一个Stage里面塞下了两个分支,但是这两个分支之间在训练过程中没有任何交互,它们是并行执行的。所以我们提出Interleaved Execution,也即在每个Stage里,先执行Box分支,将回归过的框再交由Mask分支来预测Mask,如上图(b)所示。这样既增加了每个Stage内不同分支之间的交互,也消除了训练和测试流程的Gap。我们发现这种设计对Mask R-CNN和Cascade Mask R-CNN 的Mask分支都有一定提升。
这一步起到了很重要的作用,对一般Cascade结构的设计和改进也具有借鉴意义。我们首先回顾原始Cascade R-CNN的结构,每个Stage只有Box分支。当前Stage对下一Stage产生影响的途径有两条:(1)
的输入特征是预测出回归后的框通RoI Align获得的;(2)的回归目标是依赖的框的预测的。这就是Box分支的信息流,让下一个Stage的特征和学习目标和当前Stage有关。在Cascade的结构中这种信息流是很重要的,让不同Stage之间在逐渐调整而不是类似于一种Ensemble。
然而在Cascade Mask R-CNN 中,不同Stage之间的Mask分支是没有任何直接的信息流的,只和当前通过RoI Align有关联而与没有任何联系。多个Stage的Mask分支更像用不同分布的数据进行训练然后在测试的时候进行Ensemble,而没有起到Stage间逐渐调整和增强的作用。为了解决这一问题,我们在相邻的Stage的Mask分支之间增加一条连接,提供Mask分支的信息流,让能知道的特征。具体实现上如下图中红色部分所示,我们将的特征经过一个1x1的卷积做Feature embedding,然后输入到,这样既能得到Backbone的特征,也能得到上一个Stage的特征。
进阶第三步:Semantic Feature Fusion
这一步是我们尝试将语义分割引入到实例分割框架中,以获得更好的Spatial Context。因为语义分割需要对全图进行精细的像素级的分类,所以它的特征是具有很强的空间位置信息,同时对前景和背景有很强的辨别能力。通过将这个分支的语义信息再融合到Box和Mask分支中,这两个分支的性能可以得到较大提升。
在具体设计上,为了最大限度和实例分割模型复用Backbone,减少额外参数,我们在原始的FPN的基础上增加了一个简单的全卷积网络用来做语义分割。首先将FPN的5个level的特征图Resize到相同大小并相加,然后经过一系列卷积,再分别预测出语义分割结果和语义分割特征。这里我们使用COCO-Stuff的标注来监督语义分割分支的训练。红色的特征将和原来的Box和Mask分支进行融合(在下图中没有画出),融合的方法我们也是采用简单的相加。
进阶结果
通过上面的几步,在使用ResNet-50的Backbone下,相对Cascade Mask R-CNN可以有1.5个点的Mask AP提升,相对Mask R-CNN可以有2.9个点的提升。在COCO 2017 val子集上的逐步对比试验如下表所示。
除了纯净版HTC之外,在Paper里我们还给出了在COCO Challenge里面用到的所有步骤和技巧的涨点情况(良心买卖有木有)。
总结
1、多任务多阶段的混合级联结构。
2、训练时每个Stage内Box和Mask分支采用交替执行。
3、在不同Stage的Mask分支之间引入直接的信息流。
4、语义分割的特征和原始的Box/Mask分支融合,增强Spatial Context。
Code
照例将Release到MMDetection
(https://github.com/open-mmlab/mmdetection),欢迎 watch。
Arxiv
Hybrid Task Cascade for Instance Segmentation
(https://arxiv.org/abs/1901.07518)
完善信息后,即可下载资料
您还未登录,登录方可继续
1
2
3
4
5
6
7
8
9
10