申请试用
登录
核心技术
以原创技术体系为根基,SenseCore商汤AI大装置为核心基座,布局多领域、多方向前沿研究,
快速打通AI在各个垂直场景中的应用,向行业赋能。

EmTech China | 商汤研究院院长王晓刚:现在人脸识别相当于8位数字密码

2018-01-31

《麻省理工科技评论》新兴科技峰会EmTech China于昨日落幕。从实验室到产业界,EmTech China为大家呈现最值得期待的科技商业头脑风暴。商汤研究院院长王晓刚在此次活动上发表了题为“AI赋能下的当下与未来”的演讲,阐述了人工智能如何通过云和端改变人们的生活和未来。


王晓刚称,只有当人工智能的算法准确率超过人类能力红线的时候,大家才会考虑实际的工业应用。2014年,人工智能人脸识别技术的准确率首次超过人眼准确率,到现在误差率可以达到亿分之一。换句话说,原来机器做人脸识别如果相当于一个4位密码,现在则相当于一个8位的密码,它的性能已经提升了4个数量级。


image.png


以下为王晓刚演讲实录:


很高兴今天能与商汤科技的战略合作伙伴英伟达和高通同台,英伟达提供的GPU可以帮助我们实现强大的深度学习模型。商汤使用超过6000块GPU训练多种神经网络,同时GPU也在支持着很多云端上的AI服务。如果人工智能想要普及,那么就要走到前端设备之中。这些前端设备都离不开芯片的支持,而高通所提供的就是人工智能的芯片。目前商汤的人脸解锁技术已经被超过上亿的手机用户使用,都要靠高通的芯片支持。


今天我们要谈论的是人工智能是如何通过云和端改变人们的生活和未来。


在过去的十年里,人工智能飞速发展最杰出的代表就是深度学习。其中有三个推动深度学习发展的因素:一是大数据,二是云和端的计算能力,里面包括了GPU和AI芯片,三是深度学习算法不断创新。人工智能在各个垂直领域中也取得了非常多的突破,得益于三个比较重要的维度。一是准确率,二是容量,三是效率。


只有当人工智能的算法准确率超过人类能力红线的时候,大家才会考虑实际的工业应用。而且随着这样的准确率不断提升,人工智能的服务业务边界也会不断地拓展。为了能够达到更高的准确率,我们需要非常强大的学习算法,同时,强大的GPU,给予了训练强大神经网络模型的能力。最后是效率的问题,我们的算法要走向前端设备,这就对功耗、速度提出非常高的要求。


2 - 640?wx_fmt=jpeg.jpg


首先,看一下准确率这个维度,以人脸识别为例,2014年,人工智能人脸识别技术的准确率首次超过人眼准确率。我给大家举个例子,2014年的时候,在1:1的情况下,机器做人脸识别可以达到万分之一的误差率。而现在,误差率可以达到亿分之一。换句话说,原来机器做人脸识别如果相当于一个4位密码,现在则相当于一个8位的密码,它的性能已经提升了4个数量级。


随着算法的提升,其应用边界不断扩大,从最开始1:1身份的比对,到后来动态布控,如抓捕在逃嫌疑人。一直到现在,我们可以在整个城市范围内,从上千亿的图像中去搜索人脸,恢复人的活动轨迹。能够达到这样高的准确率实际上是得益于神经网络的强大,我们通过训练超过1200层的神经网络,从而超过人眼识别的能力。神经网络从2012年的5层发展到现在的1200层这样一个过程,其网络的复杂度、深度也在不断的提升。


那么,增加神经网络的层数,是否是提升学习能力的唯一方法呢?其实也不是这样,因为人类的大脑并没有1200层,但是我们的大脑有非常强大的学习能力,就因为我们的大脑有非常复杂的信息传递机制。


实际上,传统的神经网络的信息是由低层向高层传递,那么现在我们需要设计更加复杂的信息传递机制,在同一层这个神经元它会不停的去分组,而且在同一层神经元之间,有更加复杂的信息传递机制。


3 - 640?wx_fmt=jpeg.jpg


现在给大家展示的是2016年设计的一个大规模物体检测网络。在这个网络里,不同的分辨率的特征信息之间可以在同一层神经网络进行传递,并且互相印证。而且我们设计了不同的门来控制传递的信息流,如什么样的信息可以传递。最开始的时候,我们用不同的神经网络解决不同的问题,但是事实上我们人类只有一个大脑,却可以用一个大脑解决各种各样的复杂问题,包括三维的物体形状的感知、文字的理解、在视频中去识别和跟踪物体以及对声音的处理。神经网络也是有这样的一个发展趋势,我们希望运用一个网络去完成多种复杂的任务。


为了让我们的网络能够运用在前端设备,就必须提高它的效率。在真正工业应用时,我们对网络进行上千倍的压缩还要保证其准确率,这样才能够用在各种前端的芯片里。我们需要在最普通的手机里,把深度学习的各种算法用到超实时。大概两年以前,一个GPU在监控里只能够处理一路视频,而现在同样的GPU,能够处理16路的视频;能够在前端设备中实现实时人脸检测。


大家可能会问,既然在前端应用的时候,只要用一个很小的稀疏的网络,那为什么要训练1200层这么大的网络,用处在哪?原因是为了得到一个很小,但是识别率很高的网络,你首先需要得到一个非常深、非常强的网络进行学习。打个比喻,这个小的但是识别率高的网络,就好比是一个小学生,我们的数据就好比是书籍,直接让一个小学生,从大量的书籍当中提取知识,这是一件非常困难的事,首先要找到一个老师,老师有非常强的学习能力,这就是1200层的网络。它首先能够从海量的数据里面,把知识提取出来,然后通过知识传播的方式去教更小的网络,让其达到很好的识别性能。


大家可以看到的是,我们的算法演进。一边是高端的人脸抓拍相机,用的是传统的算法,基于FPGA实现的,其计算能力比较强;另一边是经过网络压缩以及各种优化技术,把深度学习的算法放在一个非常便宜的芯片里面,能够保持非常好的检测和跟踪的准确率。城市里面有几十万路的摄像头,但是不可能把这些摄像头和视频流直接连到后台的平台上,靠的是前台的人脸抓拍相机,去检测、跟踪这些关键的人,把抓拍到的图片传到后台。


4 - 640?wx_fmt=jpeg.jpg


算法的提升可以带来非常多的应用,首先会让我们的城市变得更加安全、更加温暖。比如,有的犯罪嫌疑人都是十几年以前隐姓埋名,改了身份证,最终还是被动态人脸布控系统所捕捉到。再举个具体的例子,前几天在朋友圈里看到的一个发生在南方城市的新闻,公安局利用人脸识别系统结合城市里几万个摄像头找到了走丢的老人。


除此之外,人工智能也让我们的生活能够更加丰富多彩。如可以将人工智能对人脸准确快速跟踪的技术应用到直播当中,对场景的三维结构进行分析,进而配合各种特效。因此,我们可以推动这样的人工智能技术发展,增强现实,去设计各种各样有意思的游戏。


利用高通最新的芯片,手机能够实现实时在线上对视频风格的变换,而这对算法的效率要求很高。


手机正在从智能手机变成智慧手机,这是人工智能算法走向手机的过程,里面有包括背景虚化和智能美颜等各种各样的应用。同时人脸识别技术普及的使用不仅可以实现人脸解锁,还可用于支付。


AI也让我们的交通变得更加安全和方便,商汤的驾驶员监控系统,可以通过驾驶员人脸关键点的跟踪和表情的分析来监控他的疲劳状态,并适时发出警报。在车内,也可以利用手势识别和视线跟踪来给乘客设置各种各样的游戏,如用手势识别进行的游戏,根据对视线的跟踪来写字。自动驾驶技术中,我们可以看到随着深度学习的发展,可以实现在复杂天气情况下和恶劣光线条件下更加安全可靠地驾驶。


总之,商汤专注于算法,但这个算法推动是靠大数据、云端和前端以及硬件和芯片,同时人工智能在各个垂直领域的应用,也推动算法不断的进步。我们希望在不久的将来,通过云端AI和前端AI,改变我们的生活,改变我们的未来。