核心技术: 以原创技术体系为根基，SenseCore商汤AI大装置为核心基座，布局多领域、多方向前沿研究，
快速打通AI在各个垂直场景中的应用，向行业赋能。

商汤科技联合创始人兼研究院院长王晓刚：AI赋能当前与未来

2018-05-24

2018年5月23-24日，为期两天的2018艾瑞（北京）年度高峰会议聚焦 “智能·无界·决策”，在北京国贸三期大酒店盛大召开。艾瑞峰会汇聚众多互联网行业领军人物、创新者，企业决策者一起看清机遇，改变惯性，开拓认知商业新视野。

以下是商汤科技联合创始人兼研究院院长王晓刚发表题为“AI赋能当前与未来”的演讲实录。

商汤科技联合创始人兼研究院院长王晓刚

大家好！今天非常荣幸能有这样的机会，分享过去三年商汤在人工智能落地应用的体会，同时也借此机会展望人工智能未来应用前景。

让我们简单回顾一下人工智能最近几年发展中的重要节点：

· 过去几年，人工智能主要驱动力来源于深度学习。在视觉领域，一个标志性的事件在2012年，深度学习第一次在ImageNet比赛中取得了冠军。

· 2014年，商汤的人脸识别算法的准确率在人脸识别测试LFW系统下首次超过了人眼识别率，突破了大规模工业应用红线，对人脸识别的发展具有开创性意义。

· 2015年，商汤参加ImageNet国际计算机视觉挑战赛，获检测数量、检测准确率两项世界第一。

· 2016年，是让更多人知道人工智能发展情况的一个标志性事件，AlphaGo击败了李世石，取得了冠军。

在我们看来，人工智能分为三个层次：

基础层。包括GPU集群，我们靠GPU去训练模型；包括AI芯片，如果把人工智能、深度学习用在手机等前端设备上，离不开计算能力的加强。同时，还有深度学习平台，如果说把"深度学习模型"看成一个产品，那么平台就是生产线，有什么样的生产线意味着有什么样的生产能力，它起着非常基础的作用。还有增强现实的AR平台，与AI平台的结合，实现虚拟与现实世界的融合。

以上这些都属于基础层。

在应用层，我们说人工智能有各种各样的应用，如智慧城市、无人驾驶、智能手机等。如何将基础能力在垂直领域落地？之前人们认为人工智能可能是一种通用能力，比如说训练一个人脸识别模型以后，就可以在各行各业里成功应用。但实际情况是，我们需要真正深入到每一个垂直领域，在各个领域中去研究算法、重新去训练模型。这样就带来一个问题：随着垂直领域的应用越来越多，它对我们的研究员、科学家的消耗也是越来越多。

在这个里面，还有很重要的中间层。怎么样设计出一套模块化的算法开发工具？比如说不同领域里，用不同的网络结构。现在，主要靠研究员积累的经验去设计网络结构，但我们可以设计算法自动搜索最优的网路结构。普通的工程师和开发者，就可以利用这套算法开发工具完成从基础层到应用层的跨越。

如果看一看这三个层里面国内外竞争格局的话，发现在应用层，中国有最丰富的落地场景。它提供大量的数据和反馈用于打磨算法，这为人工智能提供非常好的条件，这是为什么人工智能在中国能快速发展。同时，我们也看到在基础层面，中国还是比较薄弱。比如说在GPU，AI芯片领域，目前都被国外巨头所垄断。比如，深度学习平台，大家经常使用的包括TensorFlow、Torch，也都是由谷歌、Facebook开发。

深度学习平台

在基础层，我们现在追求同时利用上千块GPU训练网络模型，把AI和增强现实结合起来，虚拟世界和现实世界结合起来，云和端结合起来。而在深度学习平台上，以上提到的TensorFlow、Torch等都是大家经常使用的一些免费开源的深度学习平台。但是，用这些大公司提供的深度学习平台，会有一些限制：

首先，性能上会有限制。这些平台，更多是面向学术界小规模的应用。如果在大规模产业应用，我们需要几百块GPU训练模型，这是这些开源平台所不能很好的支持的。

其次，依赖开源的深度学习平台，也会对技术上产生各种各样的限制。比如说2014年，当我们参加ImageNet比赛时，开源平台不能很好的支持多机多卡并行训练，所以，我们需要开发自己的深度学习平台，才能跟谷歌等巨头竞争。另外，还有知识产权方面的问题。

商汤的深度学习平台，它具有高效的计算能力，能支持几百块GPU的并行训练，也有高度的灵活性，能很快针对垂直领域应用做开发，提高生产力，商汤深度学习平台在很多方面都有领先性。

同时，一个很重要的应用领域是AR增强现实技术。现在AR应用已经深入到我们的生活中，比如在视频直播里有很多特效，它背后的技术支撑实际上是人脸关键点和建模技术。

比如，在手机领域应用，可以建模找到关键点，在手机里就可以将游戏中的卡通人物，引入到真实生活当中，将来还会有实景游戏产出。在电商领域应用，比如在网上购买家具，可以把虚拟的家具模型放到自己想要的场景中，这些应用背后依靠的是商汤的SenseAR技术。

目前，OPPO已经推出以商汤科技SenseAR平台为引擎打造的OPPO AR开发者平台，引起了广泛关注。而商汤在2016年时，开始建立自己的AR平台，并进行大规模推广。

中间层

在中间层，目前有一些代表核心的技术突破。最近，谷歌发布了AutoML工具链，普通开发者可以利用这样的工具链，针对各种各样不同应用，较快的训练模型，包括去设计更好的网络结构。

商汤也有类似的工具链，而且可以跟谷歌AutoML做对比，比如自动搜索网络结构。除了分类，还有检测、跟踪、分割、关键点检测等，后面有大量的垂直应用。

这里给大家展示自动搜索出来的网络结构。最左边大家所看到的是2012年深度学习应用到计算机视觉里时它的网络结构AlexNet，后来设计了VGG, GoogleNet, ResNet。这是一些对比，左边是我们找到的三个最优的网络结构，右边是性能对比。比如说靠人工研究员的经验找网络结构时，需要花一年时间。如果用商汤的技术，三天的时间，32片GPU就可以达到更好的识别性能。

大家知道AlphaGo最开始依赖于人类的经验作为起点。AlphaGoZero完全抛弃人类的经验从零开始学习下棋。我们说自动网络结构的搜索也是一样，它是完全抛弃研究员的经验知识，从头去搜索最优的网络结构。

增量学习和无监督学习

随着人工智能的发展，深度学习训练出的人脸识别模型慢慢超越了人眼识别率，它在初期时，是大量依靠人类肉眼标注数据。但是，当深度学习模型的准确率超过人眼识别率时，人类标注的数据对它起的作用就很有限了，这个时候就需要更多依靠于非监督学习。

最后，简单聊一些比较重要的应用。人脸识别帮助我们实现动态布控，当嫌疑人出现时，就可以自动在黑名单里捕捉嫌疑人。实际上，在过去几年，利用商汤的人脸识别系统已经抓捕大量逃犯，有些是在逃十几年的要犯。

人工智能在手机里面有更多的应用，包括人脸解锁、AI拍照，人工智能通过手机进入到千家万户，给我们带来不一样的体验。

您尚未完善信息

完善信息后，即可下载资料

完善信息跳过，继续浏览

您尚未登录

您还未登录，登录方可继续

登录跳过，继续浏览

请选择您认为需要改进的地方：

导航不好用，不方便找到感兴趣的内容
产品介绍信息不够全面
产品介绍信息不容易懂
页面打开速度不快，页面浏览不流畅/有卡顿
页面不够美观
售后服务不好找，体验不好

跳过下一个

您是否能够达到本次网站的访问目的？

是
否
仍在进行中

下一个

您对商汤官网的满意度如何？

非常不满意非常满意

提交

已收到您对商汤官网的评价和建议！

感谢您的耐心反馈~

关闭

产品试用

填写此简单表格，我们将尽快联系您！

把您的需求发给我们了解所有产品

商务合作

400 900 5986

周一至周五 9:00-12:00，13:00-18:00

business@sensetime.com

合作伙伴招募

成为合作伙伴