新闻中心

每一个新动态都是我们向前迈进的新脚步

返回研究动态

业界 | 商汤王晓刚:你所不知的商汤三维视觉产品世界

2019-07-18 19:18

文章出处:AI研习社

商汤 AI 落地三步走战略

7 月 12 日-7 月 14 日,2019 第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。

峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。

7 月 14 日下午,在「智慧城市·视觉智能」专场上,商汤科技联合创始人、研究院院长、移动智能事业群总裁王晓刚带来了题为《从学术到产业化的人工智能》的主题分享。

王晓刚回顾了人脸识别从学术到工业界的持续进步历程,以及人脸识别在智慧城市、智慧通行、手机、AR、游戏等具体场景中的应用。

他提出,计算机视觉研究有几个比较重要的部分:

一是 基础层 ,包括芯片、AI 超算平台、深度学习平台等基础方面的研究,在这方面,中国还有很长地路要走,西方尤其是美国领先我们很多。

二是 应用层 ,这一块中国是比较擅长的,我们有非常丰富的应用场景,这些应用场景可以给我们更多的反馈,驱动我们的算法不断地进步。

三是 工具链,人工智能赋能百业,当不同领域需要人工智能技术越来越多的时候,它对科学家或者研究员的需求是线性增长的。如何让普通的开发者、公测人员可以根据我们的工具链迅速开发出合适的人工智能解决方案,使其生产力充分释放出来,这是未来我们需要面临的重大课题。

在这个过程中,商汤以往、现在以及未来持续会做的是:

在算法精度不断提升的前提下,拓展智慧城市从 1 到 N 的业务边界、促进 2D 感知到 3D 世界的落地,以及场景现实到虚拟现实的融合。

2014 年,商汤团队发表 DeepID 系列人脸识别算法,使其全球首次超过人眼识别率,之后随着技术的持续进步,业务也不断突破边界,从相对简单的 1:1 识别向 1:N 进发。

目前,商汤所做的工作是如何从几万到几十万人中,识别和分析出用户想要找的人或者物,随着场景不断地拓展,王晓刚认为人脸会逐渐成为人的身份标志。

另外,在 3D 的应用上,商汤的 3D 人脸识别方案也已经在很多手机上得到应用。

王晓刚现场展示了手机上通过 3D 摄像头拍摄的人脸、物体以及人体图像进行 3D 重建,未来 2D 的相册还能拓展到 3D 相册,人体的跟踪上也从 2D 延伸到 3D。

以下是王晓刚教授大会现场全部演讲内容,雷锋网 作了不改变原意的整理及编辑:

王晓刚:

感谢大会的邀请,我是香港中文大学的一名教授,同时也参与商汤在人工智能产业方面的落地,今天非常高兴能有机会与大家分享我在学术研究与工业化落地方面的一点个人体会与看法。

我自己有这样的一些经历,我们在实验室带着学生做研究,更多地是利用有限的计算资源和数据资源做学术界里的经典问题,“作坊式”地实现一些创新和突破。

随着人工智能在工业界大规模落地,市场给了技术发展很大的助力,包括可研究的内容、可研究的工具、可研究的形式。

我比较认同贾佳亚老师(查看 演讲内容)所说的未来不同研究领域的一些融合。

我认为现在我们的研究更多地停留在算法层次,未来的人工智能研究很重要的方面是软硬的结合、算法和芯片的结合、算法和传感器的联合优化,这些都是比较重要的几个方向。

而这些方向往往都需要更强的工业界支持,因为后者可以提供更多的硬件能力、更大的研究课题。

首先,业务系统对于我们的研究是非常重要的。比如一个普通城市,至少都有上万个摄像头,一年积累的人脸数据超过上千亿,如果将这些摄像头连在同一个平台上,如何在大平台上进行高效率地图像搜索和大数据分析,这是实验室中难以接触到的问题。

另外,我们的计算平台在现有的一些工业研究领域,能够同时使用几百块 GPU 训练一个模型,从而做到快速反馈。

同时,还有很多长尾的人工智能问题需要解决。我们需要建立一套高效的工具链,可以做到全面的测试和评估。

比如我们做人脸识别、计算机视觉识别问题,在学术领域,我们在实验室里也有工具,但真正工业应用落地其实要做大量的测试,后者会反馈出非常多的问题。

而以上这些要素,均是学术实验室所不具备的。

商汤科技成立于 2014 年,初创研究团队来自于香港中文大学,大概有 20 年历史的学术积淀。

我们一直与学术界保持着密切地交流,包括与 MIT、南洋理工、清华、北大等高校都设有联合实验室,可以提供不同行业的人工智能算法和解决方案。

过去几年,我们除了做一些工业落地方面的研究,也会兼顾学术方面的探索,在 ICCV、ECCV 上发表了几百篇论文。

我们和香港中文大学联合实验室共同启动 OpenMMLab 开源算法库,其中包含了大家经常关注的计算机视觉问题,如物体的检测、行为的识别和超分等。

经典算法开源,可以帮助大家更好地复现,目前也有一些其他院校加入到了这个开源平台的构建中。

同时,我们还提供了 SenseAR 增强现实的开发者平台,这是学术和工业联合研究的例子。

它不仅有增强现实 AR 和 AI 功能集成,从 SLAM 到人脸、人体的识别等,还可以部署到不同的手机上,目前这个平台已经部署在超过 5000 万台的手机上。

我们认为做计算机视觉或者人工智能方面的研究有几个比较重要的方面:

一是 基础层 ,包括芯片、AI 超算平台、深度学习平台等基础方面的研究,在这方面,我们还有很长地路要走,西方尤其是美国领先我们很多。

二是 应用层 ,这一块中国是比较擅长的,我们有非常丰富的应用场景,这些应用场景可以给我们更多的反馈,驱动我们的算法不断地进步。

三是 工具链层,人工智能赋能百业,当不同领域需要人工智能技术越来越多的时候,它对科学家或者研究员的需求是线性增长的,如何让普通的开发者、公测人员可以根据我们的工具链迅速开发出合适的人工智能解决方案,使其生产力充分释放出来,这是未来我们需要面临的重大课题。

举几个例子,在算法精度不断提升的前提下,如何拓展智慧城市从 1 到 N 的业务边界、促进 2D 感知到 3D 世界的落地,以及现实到虚拟现实的融合?

我们知道,人工智能的工业应用时间点是在 2014 年,2014 年商汤团队发表 DeepID 系列人脸识别算法全球首次超过人眼识别率。

而后,很多人认为当技术超过肉眼识别率时,问题就已经解决的差不多了,其实不是这样,现实生活中,很多场景对于技术的需求远远超过肉眼识别的水平。

2014 年,当时的技术误识率是在千分之一,现在每年都有几个量级的增长。从过去几年中可以看到,随着人脸识别技术精度持续增长,它可以不断地突破业务的边界。

此前,识别率比较低时,可以做 1:1 比对,如人脸、身份证进行线上线下认证,现在很多产品已经出现在机场、酒店中。

从 2017 年开始,人脸识别技术开始应用于手机解锁功能,手机虽小但其要求更高,因为手机不但要识别准确,还要防止活体攻击,这其中还包含各种各样活体攻击方式,从照片到视频再到 3D 模型。

过去几年里,我们的 SenseID 人脸识别、活体检测水平持续提升,可以让这一项技术进入普罗大众的日常生活中。

据统计,现在人们每天使用手机人脸解锁这项功能超过 100 亿次。

如果 1:1 是相对简单的问题,1:N 就更加复杂。

我们需要有数据库,这里的数据库可能是几万或者几十万量级。在门禁、闸机等通行场景中,一个大楼或者公司有 1、2 万人的数据库;智慧城市的数据库可能达到几十万的量级。

商汤所做的就是从几万到几十万人中识别和分析所需要找的人与物。随着场景不断的拓展,我们可以看到人脸渐渐的成为人的身份标志。

现在大家看到的是我们在上海西岸的“智慧公共空间管理平台”,这个区域有密集的摄像头,可以通过人脸识别、跟物体的关联等,寻找到我们想要找的人或者丢失的东西。

现在智慧城市应用里,我们可以看到有越来越多的摄像头具有 AI 的功能,越来越多的摄像头可以连接在同一个平台上。

为了数据安全和数据隐私的保护,我们会逐渐减少人工干预和标注,数据可以存储在客户那一端。

以前我们说算法性能的提升依靠人工标注,现在我们的数据量有几十亿甚至上百亿的量级,不太可能靠人工标注,我们需要依靠机器终身学习,使数据得到自动更新,部署系统和训练系统可以实现完美融合。

在 3D 应用方面,手机已经从单个 RGB 摄像头到多摄到 3D 摄像头。

2017 年开始,苹果应用了结构光 3D 摄像头,后面我们可以陆续看到很多手机厂商不断地推出这样的机型,把有深度学习的摄像头装在手机上,可以带来很多新的研究课题和新的应用。

回顾一些大家比较熟悉的场景,看它如何从 2D 成长到 3D 并产生相应的应用。

比如最开始人脸的关键点,我们推出 106 个人脸关键点,主要是做人脸的属性、人脸特效,用在互联网直播等。

我们从 106 点到更稠密的 240 个人脸关键点,做的事情不仅是增加特效了,而且还有美妆,对人脸关键点的定位要求更准确。

化妆后出现关键点偏移,比如红嘴唇涂到牙齿上等等,这是我们不希望看到的,根据关键点,我们有智能的美颜、美妆,更多的功能需要更多稠密的关键点和定位。

现在手机上有了 3D 摄像头,我们可以实现人脸 3D 重建,它对于技术的精度、计算复杂性、几何复杂性都提出了更高挑战。

目前,我们已经在 OPPO、vivo 手机上实现了商汤人脸 3D 重建,根据这个可以进行 3D 美颜、捏脸、微整形等。

更有趣的是 3D Avatar,通过人脸驱动 3D Avatar,除了人脸的重建还有人体和一般物体的重建,正是因为手机上有了深度的信息,可以给我们带来不一样的体验,2D 相册在未来可以拓展到 3D 相册。

人体关键点定位跟踪是学术界研究很长时间的课题,未来这个应用可以落地在很多场景中。

包括服装、肤质的识别,我们可以根据你的服装生成人体的形象,在互联网直播场景中,以前给人加各种各样的特效,现在还可以针对每一个人做虚拟形象

另外,还可以设立虚拟观众席,如果大家不能在现场参加像今天这样的大会,作为粉丝,你可以有自己的 Avatar 形象,可以在家里参加并进行互动。

最后,我想介绍人工智能和 AR (增强现实)的结合。

2017 年被大家看作是增强现实的元年,这一年苹果、谷歌发布了 ARKit 和 ARCore 的平台,商汤科技从 2016 年有自己的增强现实平台 SenseAR。

2016 年我们主要支持娱乐互联网的直播、特效等功能。

2018 年,商汤以原创 AR 开发者平台 SenseAR 为基础,联合 OPPO 共同打造 OPPO ARunit 平台,通过这个平台吸引更多的开发者加入,后面包括小米等互联网公司也加入进来并基于此做了开发。

这其中有 SLAM 技术、有各种 AI 功能,随着手机 3D 摄像头的出现,我们还有基于 RGBD 的 SLAM 和物体的重建。

除了手机端,我们也提供 AR 云形成多云共享,几个人可以同时在虚拟空间里交互、游戏

可以看到 SLAM 技术的落地面临诸多挑战,需要应对动态的场景、弱纹理、复杂运动以及室外大场景。

这里为大家展示的是 OPPO 手机上有了 SLAM 技术和深度摄像头可以做 AR 测量,你可以拿着手机测量任何一个物体的大小,还可以自动的检测场景中的各种形状,如方形、圆形、测量身高等。

现在对标苹果 AR 尺子的技术,在准确性或者数字化、速度上等各方面上,我们可以做得更好一些。

我们还做了 AR 导航,大家可以在大的购物中心、酒店等室内场景里找到自己的位置,在技术实现上,这是极具挑战的。

杭州国博中心是一个非常大的场景,我们可以进行 3D 地图重建,用 SLAM 的技术实现室内导航。

如果你走丢了,可以通过手机 AR 导航功能选择路线,导航会自动带你到想要去的位置。可以看到它在进行场景的重建和定位,进行手机的导航。

另外,我们的 AR 游戏跟《王者荣耀》合作,可以通过手机拍摄真实的场景,游戏里的人物会进行虚拟和现实的融合。

接下来为大家展示多人共享的 AR 云(SenseAR),针对单个前端的设备,我们利用 SLAM 技术进行场景的理解和定位。

如果几个人同时想玩一个游戏,我们的 AR 云可以把他们不同手机上的坐标系统一到同一个坐标系下,实现跨平台的互动。

我们的 SenseAR 和手机厂合作,可以从手机到 AR 的平台,再到渲染的平台,贯穿开发给开发者,将来有更多的开发应用和更好的体验。

上个月,我们还成立了中国增强现实核心技术产业联盟 (China Augmented Reality Core Technology Industry

Alliance,简称 CARA),我们知道国外的增强现实是由谷歌、苹果等巨头主导,很多研究和创新需要联合产业链上下游的力量综合实现创新。

该联盟由手机厂商、研究机构、模组厂商、算法提供商和 Sensor 厂商组成,可以形成联合创新。

这就是开始时谈到的——现在和未来 AI 的研究不单单是在实验室研究单点的问题,我们要联动产业链上下游,通过紧密的合作和市场反馈提供新的问题,实现创新的突破。

我们相信未来随着应用场景不断的丰富会给我们 AI 研究提出更多新的课题,我们和学术界、产业界一起把 AI 的研究推向更前端,有更多的落地场景。

谢谢大家!

现场观众提问:

王老师好,我是香港中文大学的 Ph.D,商汤研究院有这么多博士,我相信这是非常强大的学术组织,但毕竟商汤是商业化的公司,我特别好奇商汤研究院如何平衡商业回报和学术成果?

王晓刚:

我们对于学术成果的看重不只是发论文,虽然今天 PPT 中展示我们有多少篇论文,但这不是最重要的。我们要求大家要做到在学术界有影响力,且能带来突破以及可行的工作成果。

所谓的商业回报和学术突破二者并不是完全矛盾的,它们可以有更紧密的结合。我们已经有非常多的研究员深入到各种实际应用中,发现问题、解决问题。

人工智能与其他很多研究不太一样,如果研究电磁学,在实验室里就可以了;但人工智能是赋能产业的,不能待在实验室,一定要理解客户真正的问题是什么。

我们希望产业可以给学术提出新的问题、新的数据,在这些问题上实现产业和学术的结合。