核心技术: 以原创技术体系为根基，SenseCore商汤AI大装置为核心基座，布局多领域、多方向前沿研究，
快速打通AI在各个垂直场景中的应用，向行业赋能。

CVPR 2017 | 商汤科技及香港中大-商汤科技联合实验室精选论文解读（二）

2017-07-25

在今年的CVPR学术会议上商汤科技与香港中大-商汤科技联合实验室共同发表的论文多达23篇，香港中大林达华教授亲自精选五篇论文与大家分享。这五篇论文的研究成果在各个专业数据集、竞赛如ImageNet、Visual Genome、DAVIS Challenge、MPII中，取得第一名的成绩。

国际计算机视觉与模式识别大会 (CVPR) 是人工智能尤其是计算机视觉领域的顶级学术会议。今年CVPR的文章录取率大约29%。在CVPR上发表的论文被公认为代表了该领域科技发展的最高水平。从今年7月21日开始这个一年一度的盛会就在美丽的夏威夷火奴鲁鲁召开。本届CVPR大会商汤科技与香港中大-商汤科技联合实验室共发表了23篇论文，超过了以人工智能技术著称的科技巨头Google (21篇)和Facebook AI Research (7篇)。这23篇论文涵盖了计算机视觉的多个领域，不仅提出了很多新型的应用，也在核心技术的研发上取得了多项国际领先的成果。在本文中我们将以其中5篇论文为代表一窥商汤这个AI独角兽背后的核心技术创新之路。

PolyNet：深度网络设计的里程碑多项比赛夺冠

深度学习在这几年取得了令世人瞩目的成就。这些成就背后的最主要的技术因素就是深度网络设计技术的不断突破。深度网络的进步首先反映在ImageNet1000类图像分类的准确率上它是业界公认的衡量深度网络性能的一个重要指标。从AlexNet、GoogLeNet到ResNet网络越来越深准确率也在不断提升。在过去五年ImageNet分类准确率从84%提高到了97%。可是随着网络深度持续增加性能的进一步提升开始遇到了瓶颈。比如ResNet从一百多层增加到一千层性能也没有显著的提高。

面对这样的困难此论文提出了一种新的破局思路增强网络的结构多样性(Structural diversity)。这个思路源自于我们在实践中的一个重要观察多个不同结构的超深网络的简单结合往往能带来性能的进一步显著提升。沿着这个思路我们设计了PolyNet。它由多个不同形态的称为PolyInception的基本元组叠合在一起构成。因为每种元组都可以通过一个数学多项式表达出它的结构所以称为Polynomial Inception简称PolyInception。如上图所示每个PolyInception是内部合成了多个不同深度的并行通路。这个设计把结构多样性的思想往前推进了重要一步把它融入到每个单元的设计之中。

此论文的作者透过系统性的对照实验对PolyNet的设计进行测试发现它相比于主流的设计包括ResNet以及由Google提出的InceptionResNet v2有更高的效率即在相同的计算量下能获得明显更高的性能。文中描述的Very Deep PolyNet在ImageNet大规模图像分类测试集上获得了single-crop错误率4.25%和multi-crop错误率3.45%的性能显著超过了Google提出的InceptionResNet v2和Facebook在同一时间发表的ResNeXt成为已发表的性能最高的网络也是深度网络设计领域的新标杆。

在ImageNet2016的比赛中商汤科技与香港中大-商汤科技联合实验室在多项比赛中选用了这种网络结构并取得了三个单项第一的优异成绩。这一成绩反映了一个高效的深度网络架构对于提升应用性能的重要作用。PolyNet的模型结构已在Github公开

https://github.com/CUHK-MMLAB/polynet

论文标题：PolyNet:A Pursuit of Structural Diversity in Very Deep Networks

论文作者：Xingcheng Zhang, Zhizhong Li, ChenChange Loy, Dahua Lin

Relational Net：Visual Genome上把关系识别准确率从48%大幅度提高到82%

物体检测与识别一直是计算机视觉研究的重要方向。近年来随着Faster RCNN等基于深度学习的检测框架的发展物体检测的性能有了长足的进步但这对于图像理解仍然是不足够的。出现了同类型物体的图片它们背后传递的含义可能是截然不同的。要理解这样的图片我们不仅需要判断图中出现的物体的类型而且需要理解物体之间的关系。

最近一段时间关系识别逐步进入计算机视觉研究的视野。在这个问题上的一个有代表性的工作是斯坦福大学李飞飞团队在2016年10月发表在ECCV上的论文。该工作把语言先验用于关系识别相比于之前的方法取得了不错的进展关系识别的准确率提高到了48%。然而这样的准确率显然离满足实用需求仍有较大的距离同时它也反映的问题的难度。这个问题的主要挑战在于关系与物体有着显著不同的性质。某种类型的物体它的外观表现往往比较一致而同一种关系的外观表现往往千差万别。

此论文提出了一种新的建模方法把统计学习和深度网络有机地结合起来。此方法把一个基于条件随机场(Conditional Random Field)的迭代推断方法解开从而把它表达为一个前向计算网络。这个前向网络和CRF一样具有统计推断的能力但是它可以被嵌入到一个更大的深度学习系统中和其它模块一起进行端对端的学习。基于这种方法此论文提出了一个称为Deep Relational Net的关系理解框架把特征学习以及跨领域关系学习结合成一个统一网络。这个框架在关系理解领域的主要数据集Visual Genome上把关系识别准确率从48%大幅度提高到82%从而为这个问题设立了新的性能标杆。这篇论文在CVPR 2017被接收为Oral presentation。该论文相关代码与模型结构已经在Github公开

https://github.com/doubledaibo/drnet

论文标题：Detecting Visual Relationships with Deep Relational Networks

论文作者：Bo Dai, Yuqi Zhang, Dahua Lin

Deep Layer Cascade：斩获第一届DAVIS Challenge 视频语义分割比赛冠军

图像语义分割是图像理解的基石性技术在自动驾驶系统等牵涉街景或场景识别应用中扮演举足轻重的角色。基于深度学习的语义分割技术虽然可以取得远超传统方法的性能但是往往依赖于极深的网络或者复杂的后处理技术提高模型的预测精度。因而处理过程通常需要耗费大量的计算资源而且速度不高。

此论文提出了一个很具启发性的创新点对难度不同的区域区别对待 — 让简单的归于简单把宝贵的计算资源投放在困难的部分。具体而言大块平滑的区域分割是较为容易的而物体边界或者有复杂纹理的区域的分割则较为困难。基于这一观察此文提出了一个新型的语义分割模型Deep Layer Cascade (LC)。它将图像中的像素分为简单、中等、困难三个部分分别由网络中的浅层、中层、高层来针对性完成分割。

此文还提出了Region Convolution来只处理每个阶段感兴趣的区域而忽视其他区域。对于简单区域的低层处理结果通过skip connection直接传送到输出端并与复杂区域处理的结果相融合因此三个层次的处理无缝衔接构成了一个可以端对端训练的统一网络。Deep Layer Cascade不仅提高计算速度而且因为每个阶段只专注处理某类难度的像素精度也会相对地提高。LC可以灵活地与不同的深度网络架构结合运用。Inception-ResNet-v2应用LC后速度提高了42.8% 精度提高了1.7%。经测试LC在多个测试集上大幅度提高速度并达到甚至超越state-of-the-art的精度水平LC在VOC12测试集上mIoU可达到80.3在COCO上预训练可达到82.7在Cityscapes测试集上可达到71.1。

除了上述论文值得一提的是商汤科技与香港中大-商汤科技联合实验室在这次的CVPR斩获了由VideoNet(http://videonet.team/)主办的第一届DAVIS Challenge 视频语义分割比赛冠军 http://davischallenge.org/ 。参赛者需要提出算法准确地把视频里指定的物体进行语义实例分割。因为物体快速移动造成的模糊状态和多物体之间的遮挡问题比赛的挑战难度特别高。商汤科技与香港中大-商汤科技联合实验室合作提出的Video Object Segmentation with Re-identificationVS-ReID算法让他们在全球共 22支队伍里脱颖而出获得冠军。

论文标题：Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade

论文作者：Xiaoxiao Li, Ziwei Liu, Ping Luo, ChenChange Loy, Xiaoou Tang

此外，商汤科技与香港中大-商汤联合实验室参加DAVIS Challenge比赛的技术方案也在DAVIS Challenge workshop整理发表：

论文标题：Video Object Segmentation with Re-identification

论文作者：XiaoxiaoLi, Yuankai Qi, Zhe Wang, Kai Chen, Ziwei Liu, Jianping Shi, Ping Luo, ChenChange Loy, Xiaoou Tang

Tubelet Proposal Network：ImageNet冠军检测技术到视频的跃迁

视频中的物体检测问题由于其在高级AI系统如自动驾驶、家居机器人中的潜在用途近年来获得了广泛的关注。相较于传统静止图片的物体检测问题现有的视频物体检测方法通常基于时空「管道」(tubelets)即跨时间连接的检测框来有效的应用视频中的时域信息。但是现有方法中时空管道生成的质量和效率往往差强人意基于运动信息的生成方法只能生成较短的时空管道而基于图像信息的生成方法需要花费大量的计算量也不能保证对于物体较高的召回率。

该论文将传统针对静止图像的FasterRCNN框架进行了扩展将视频物体检测框架扩展为「候选时空管道生成」和「候选时空管道识别」两个模块提出了一种高效率的候选时空管道生成方法能够在保证时空管道较长长度的同时尽可能的保留不同时空管道的多样性从而提高物体的召回率。基于这些高质量的候选时空管道应用编码-解码LSTM网络进行时空管道的识别能够有效的提升检测整体的正确率。作者还对Tubelet Proposal Network初始化和不同设置进行了详尽分析基于TPN的物体检测平均正确率相较于静止图像检测框架有>5%的提升。

该论文作者在2015和2016连续两年取得ImageNet视频物体检测项目第一。该论文是他们在2016年ImageNet竞赛第一工作上进行扩展后提出的全新视频物体检测框架相较于现有算法对视频中物体检测的效率和准确率进一步提升。

论文标题：Object Detection in Videos with Tubelet Proposal Networks

论文作者：Kai Kang, Hongsheng Li, Tong Xiao, Wanli Ouyang, Junjie Yan, XihuiLiu, Xiaogang Wang

Multi-Context Attention：单人体姿态识别数据集MPII准确率第一

人体姿态估计旨在检测出图像或视频中人体各关键点的位置具有很大的应用价值如体感游戏人机交互机器人虚拟现实设备动作捕捉机器视觉等。然而因为人体姿态非常丰富图像视频背景冗杂人体遮挡等情况常有发生所以人体姿态估计问题极具挑战性。要解决上述问题需要充分理解图像的上下文信息传统方法通常使用多个不同尺度的图像块来对多尺度信息建模这样获得的多尺度信息往往缺少灵活性和多样性。人脑视觉注意力机制是人脑高效理解自然场景的有效机制。通过将注意力集中到核心区域人脑能有效排除与任务无关的其他干扰区域并着重分析与任务相关的关键区域。

此论文提出的多情境注意力机制网络multi-context attention network首次将注意力机制模型与人体姿态估计任务有效结合通过设计三种不同的注意力机制模型——多尺度注意力机制multi-resolution attention多语义注意力机制multi-semantics attention人体全局-局部注意力机制hierarchical global-part attention——来学习图像上下文信息能够有效去除人体姿态估计任务里的冗余背景提高对易混淆人体部位分辨能力从而人体关键部位的检测精度。在最广泛使用的单人体姿态识别数据集MPII上该方法准确度在已发表的工作中最高。该方法目前已经开源代码可在如下网站获得

https://github.com/bearpaw/pose-attention

论文标题：Multi-Context Attention for Human Pose Estimation

附录

商汤科技及香港中大-商汤科技联合实验室共有23篇论文被接收，附上CVPR2017上Session时间

Multi-Context Attention for Human Pose Estimation - Saturday, July 22, 2017, 09:00–10:30
Multi-Scale Continuous CRFs as Sequential Deep Networksfor Monocular Depth Estimation - Saturday, July 22, 2017, 09:00–10:30
Accurate Single Stage Detector Using Recurrent Rolling Convolution - Saturday, July 22, 2017, 10:30–12:30
Mimicking Very Efficient Network for Object Detection - Saturday, July 22, 2017, 10:30–12:30
Object Detection in Videos with Tubelet Proposal Networks - Saturday, July 22, 2017, 10:30–12:30
Spindle Net: Person Re-identification with Human Body Region Guided Feature Decomposition and Fusion - Saturday, July 22, 2017, 10:30–12:30
Discover and Learn New Objects from Documentaries - Saturday, July 22, 2017, 13:30–15:00
Learning object interactions and descriptions for Semantic Image Segmentation - Saturday, July 22, 2017, 13:30–15:00
Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification Saturday, July 22, 2017, 15:00–17:00
Scale-Aware Face Detection - Saturday, July 22, 2017, 15:00–17:00
Interpretable Structure-Evolving LSTM - Sunday, July 23, 2017, 08:30–10:00
Detecting Visual Relationships with Deep Relational Networks - Sunday, July 23, 2017, 13:00–14:30
Joint Detection and Identification Feature Learning for Person Search - Sunday, July 23, 2017, 13:00–14:30
Learning Cross-Modal Deep Representations for Robust Pedestrian Detection - Sunday, July 23, 2017, 14:30–16:30
PolyNet: A Pursuit of Structural Diversity in Very Deep Networks - Sunday, July 23, 2017, 14:30–16:30
Pyramid Scene Parsing Network - Sunday, July 23, 2017, 14:30–16:30
Person Search with Natural Language Description - Monday, July 24, 2017, 10:00–12:00
Quality Aware Network for Set to Set Recognition - Monday, July 24, 10:00–12:00
Untrimmed Nets for Weakly Supervised Action Recognitionand Detection - Tuesday, July 25, 2017, 10:00–12:00
Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade - Tuesday, July 25, 2017, 13:00–14:30
Residual Attention Network for Image Classification- Tuesday, July 25, 13:00–14:30
ViP-CNN: A Visual Phrase Reasoning Convolutional Neural Network for Visual Relationship Detection - Tuesday, July 25, 2017, 14:30–16:30
Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing - Tuesday, July 25, 2017, 14:30–16:30