- 核心技术
- 以原创技术体系为根基,SenseCore商汤AI大装置为核心基座,布局多领域、多方向前沿研究,
快速打通AI在各个垂直场景中的应用,向行业赋能。
商汤科技联合创始人兼研究院院长王晓刚:AI赋能当前与未来
2018年5月23-24日,为期两天的2018艾瑞(北京)年度高峰会议聚焦 “智能·无界·决策”,在北京国贸三期大酒店盛大召开。艾瑞峰会汇聚众多互联网行业领军人物、创新者,企业决策者一起看清机遇,改变惯性,开拓认知商业新视野。
以下是商汤科技联合创始人兼研究院院长王晓刚发表题为“AI赋能当前与未来”的演讲实录。
商汤科技联合创始人兼研究院院长王晓刚
大家好!今天非常荣幸能有这样的机会,分享过去三年商汤在人工智能落地应用的体会,同时也借此机会展望人工智能未来应用前景。
让我们简单回顾一下人工智能最近几年发展中的重要节点:
· 过去几年,人工智能主要驱动力来源于深度学习。在视觉领域,一个标志性的事件在2012年,深度学习第一次在ImageNet比赛中取得了冠军。
· 2014年,商汤的人脸识别算法的准确率在人脸识别测试LFW系统下首次超过了人眼识别率,突破了大规模工业应用红线,对人脸识别的发展具有开创性意义。
· 2015年,商汤参加ImageNet国际计算机视觉挑战赛,获检测数量、检测准确率两项世界第一。
· 2016年,是让更多人知道人工智能发展情况的一个标志性事件,AlphaGo击败了李世石,取得了冠军。
在我们看来,人工智能分为三个层次:
基础层。包括GPU集群,我们靠GPU去训练模型;包括AI芯片,如果把人工智能、深度学习用在手机等前端设备上,离不开计算能力的加强。同时,还有深度学习平台,如果说把"深度学习模型"看成一个产品,那么平台就是生产线,有什么样的生产线意味着有什么样的生产能力,它起着非常基础的作用。还有增强现实的AR平台,与AI平台的结合,实现虚拟与现实世界的融合。
以上这些都属于基础层。
在应用层,我们说人工智能有各种各样的应用,如智慧城市、无人驾驶、智能手机等。如何将基础能力在垂直领域落地?之前人们认为人工智能可能是一种通用能力,比如说训练一个人脸识别模型以后,就可以在各行各业里成功应用。但实际情况是,我们需要真正深入到每一个垂直领域,在各个领域中去研究算法、重新去训练模型。这样就带来一个问题:随着垂直领域的应用越来越多,它对我们的研究员、科学家的消耗也是越来越多。
在这个里面,还有很重要的中间层。怎么样设计出一套模块化的算法开发工具?比如说不同领域里,用不同的网络结构。现在,主要靠研究员积累的经验去设计网络结构,但我们可以设计算法自动搜索最优的网路结构。普通的工程师和开发者,就可以利用这套算法开发工具完成从基础层到应用层的跨越。
如果看一看这三个层里面国内外竞争格局的话,发现在应用层,中国有最丰富的落地场景。它提供大量的数据和反馈用于打磨算法,这为人工智能提供非常好的条件,这是为什么人工智能在中国能快速发展。同时,我们也看到在基础层面,中国还是比较薄弱。比如说在GPU,AI芯片领域,目前都被国外巨头所垄断。比如,深度学习平台,大家经常使用的包括TensorFlow、Torch,也都是由谷歌、Facebook开发。
深度学习平台
在基础层,我们现在追求同时利用上千块GPU训练网络模型,把AI和增强现实结合起来,虚拟世界和现实世界结合起来,云和端结合起来。而在深度学习平台上,以上提到的TensorFlow、Torch等都是大家经常使用的一些免费开源的深度学习平台。但是,用这些大公司提供的深度学习平台,会有一些限制:
首先,性能上会有限制。这些平台,更多是面向学术界小规模的应用。如果在大规模产业应用,我们需要几百块GPU训练模型,这是这些开源平台所不能很好的支持的。
其次,依赖开源的深度学习平台,也会对技术上产生各种各样的限制。比如说2014年,当我们参加ImageNet比赛时,开源平台不能很好的支持多机多卡并行训练,所以,我们需要开发自己的深度学习平台,才能跟谷歌等巨头竞争。另外,还有知识产权方面的问题。
商汤的深度学习平台,它具有高效的计算能力,能支持几百块GPU的并行训练,也有高度的灵活性,能很快针对垂直领域应用做开发,提高生产力,商汤深度学习平台在很多方面都有领先性。
同时,一个很重要的应用领域是AR增强现实技术。现在AR应用已经深入到我们的生活中,比如在视频直播里有很多特效,它背后的技术支撑实际上是人脸关键点和建模技术。
比如,在手机领域应用,可以建模找到关键点,在手机里就可以将游戏中的卡通人物,引入到真实生活当中,将来还会有实景游戏产出。在电商领域应用,比如在网上购买家具,可以把虚拟的家具模型放到自己想要的场景中,这些应用背后依靠的是商汤的SenseAR技术。
目前,OPPO已经推出以商汤科技SenseAR平台为引擎打造的OPPO AR开发者平台,引起了广泛关注。而商汤在2016年时,开始建立自己的AR平台,并进行大规模推广。
中间层
在中间层,目前有一些代表核心的技术突破。最近,谷歌发布了AutoML工具链,普通开发者可以利用这样的工具链,针对各种各样不同应用,较快的训练模型,包括去设计更好的网络结构。
商汤也有类似的工具链,而且可以跟谷歌AutoML做对比,比如自动搜索网络结构。除了分类,还有检测、跟踪、分割、关键点检测等,后面有大量的垂直应用。
这里给大家展示自动搜索出来的网络结构。最左边大家所看到的是2012年深度学习应用到计算机视觉里时它的网络结构AlexNet,后来设计了VGG, GoogleNet, ResNet。这是一些对比,左边是我们找到的三个最优的网络结构,右边是性能对比。比如说靠人工研究员的经验找网络结构时,需要花一年时间。如果用商汤的技术,三天的时间,32片GPU就可以达到更好的识别性能。
大家知道AlphaGo最开始依赖于人类的经验作为起点。AlphaGoZero完全抛弃人类的经验从零开始学习下棋。我们说自动网络结构的搜索也是一样,它是完全抛弃研究员的经验知识,从头去搜索最优的网络结构。
增量学习和无监督学习
随着人工智能的发展,深度学习训练出的人脸识别模型慢慢超越了人眼识别率,它在初期时,是大量依靠人类肉眼标注数据。但是,当深度学习模型的准确率超过人眼识别率时,人类标注的数据对它起的作用就很有限了,这个时候就需要更多依靠于非监督学习。
最后,简单聊一些比较重要的应用。人脸识别帮助我们实现动态布控,当嫌疑人出现时,就可以自动在黑名单里捕捉嫌疑人。实际上,在过去几年,利用商汤的人脸识别系统已经抓捕大量逃犯,有些是在逃十几年的要犯。
人工智能在手机里面有更多的应用,包括人脸解锁、AI拍照,人工智能通过手机进入到千家万户,给我们带来不一样的体验。