申请试用
登录
核心技术
以原创技术体系为根基,SenseCore商汤AI大装置为核心基座,布局多领域、多方向前沿研究,
快速打通AI在各个垂直场景中的应用,向行业赋能。

大咖AI聊 | 商汤科技钱晨:底层研究尤为重要 人工智能需要真正落到实处

2017-09-12

火热的AI时代,初入人工智能领域做研究

如何规划职业方向?

计算机视觉技术发展之快

怎样才能做出有意思且有意义的事情?

面对人工智能层出不穷的新挑战

我们应该如何面对?


本期「大咖AI聊」我们邀请到了

商汤科技研究总监钱晨

作为校招大咖的「收官」访谈

钱晨分享了在CV领域做研究最真实感受

对于未来的AI领航员

他提到「基础性研究工作

对人工智能进一步认知尤为重要」


image.png


  • 目前负责研究方向包含人脸关键点,人体姿态,手势识别,视线追踪等相关研究领域。

  • IEEE国际期刊TCSVT期刊审稿人。本科就读于清华大学交叉信息研究院软件科学实验班(姚班),硕士毕业于香港中文大学。

  • 曾任谷歌山景城总部软件工程师,期间组织华人googler技术论坛。硕士于亚洲微软研究院实习期间,以第一作者于国际顶级会议(CVPR)发表全自由度实时手势追踪系统论文,并被大会邀请演讲(录取率5%),该技术被用于微软hololens手势识别系统研究中。


Q:今年的CVPR 大会您和团队取得了卓越的成绩,spotlight环节以4分钟口述报告分享了计算机视觉领域的贡献和创新之处,多年在人脸关键点、姿态识别、手势识别、视线追踪等相关领域做研究,您最大的感受是什么?


“对于整个计算机视觉领域而言,这些年最大的感触就是技术发展快,新的问题和新的挑战层出不穷,让我们有很多有意思且有意义的事情可以做。比如ImageNet图片分类做了很多年,但是最近注意力机制才开始被成功应用。我们今年CVPR的文章在图片分类上成功地应用了注意力机制,将基础模型进一步完善,提高了参数效率。


image.png


在这个过程中,总会面临各种新挑战带来的新问题。当你发现这些问题用之前的很多方法解决不了的时候,这就迫使我们不断地积累想法,不断地探索。所以我们见证了从想法的产生到技术落地化,再到为人所用这样一个过程。


计算机视觉是一个很大的领域,其中包括很多方面。每一个方面都会有从荒芜到爆发的过程,在不断地解决问题中,大家就会发现一些崭新的机会和思路。所以,对于我们能够参与其中的人,做学术研究有挑战性,这也是让我们为之兴奋的原因。


image.png


另外,计算机视觉领域的特点是开放和共享。大家的工作是公开的,每个人都愿意把研究成果分享出来,这是在任何其他研究领域都很少见的。因为我们知道,有了大家的的通力合作,才能在一起解决问题。现在我们也明显地感受到论文发布的速度非常快,不像之前只有在学术顶会上才知道最前沿的技术,很多人如果有了最新的技术成果,他们会及时分享出来。当别人看到这些开放的成果后,就可以沿着这个结果继续推进,所以计算机视觉领域的发展速度快,迭代周期短,这是我感受最深的两点。”



Q:您负责的研究领域,平时工作中是否遇到技术难点或者壁垒?我们公司在这方面是怎么做的?


“其实商汤最擅长的有两个部分。一是我们解决了学术领域的「通常状况」到产品化过程中「所有状况」的难题。大家都知道,学术研究领域解决的是一个通常情况的问题,但如果我们在某项技术产品化的情况下,就要用大量的数据和训练去验证在所有情况下都能工作才行。


比如,我们想要做的人脸关键点定位,通常68个点的人脸关键点定位在±45度之间做得比较准确就可以,这在学术上就有了解法。但如果我们要用到产品里去,客户就会提出问题:极端的表情,极端的姿态,极端的光照,是不是都可以定位得很好?


image.png


我们最近提出的240点人脸关键点技术就是与实际的美妆场景结合,在各种极端的表情下都能做得非常准确,这才算技术真正落到产品里去。


二是将学术上探索的结果推到极致,这也是我们擅长的。在学术上我们大概有十万,几十万的训练集和一些测试集去探索这些方法,但实际场景中我们有更多的资源,可以把数据的大小推到百万甚至千万。一旦数据的量级到达一定程度,会有很多独特的问题出现,比如说如何分布式训练,如何清理数据等等。


三是从算法成本的角度,成本越低应用范围越广。比如计算开销、时间成本、内存消耗等。在产品化过程中,降低成本的消耗也是要解决实际的问题,而这些问题的解决,也有很多需要研究的地方。


总结起来,大量的数据、降低算法成本的开销、与场景和业务紧密结合,这三个部分我认为是技术产品化的难点。我们公司在这三方面积累很深,如果说仅仅拿一些开源技术去做产品,这三个壁垒都会出现,也正因为这样,商汤坚持做原创技术。”



Q:对于想进入人工智能领域或CV研究的毕业生,您有什么关于职业方向的建议?如何才能将人工智能落到实处?


“人工智能这个领域最近比较火热,那么各种机会就呈现出来。当一个领域特别受追捧的时候,我们更应该脚踏实地一些。对于人工智能的研究,大家可能主要关心两个方面。


首先,在研究方向上,我建议大家可以做些关于人工智能的底层研究,人工智能现在比较缺少 fundamental 的工作。


在这么火热的时期,很多人不清楚为什么,只是借人工智能的名义做一些初浅的尝试,并没有深入的研究。如果研究者把大量的精力投入在这方面,整个圈子就会浮躁,所以我希望更多的人投入些基础性的、底层的研究,对人工智能产生进一步认知,还是很有必要的。


image.png


另外,现在很多人说人工智能是拿着锤子找钉子,像商汤也在这些方面有很多探索,把人工智能引进来,无论从节省成本还是带来新的功能方面,真正对整个行业和领域产生有利的改变。


商汤在安防、增强现实、手机以及互联网视频等领域做的事情,是我们通过大量的工作,验证了在这些领域人工智能确实可以带来新东西和有利改变,也在实际的生活中潜移默化地影响大家。所以年轻人应该在人工智能如此火热的阶段,踏实下来,把人工智能真正落到实处。”



Q:在可预见的未来中,您觉得有什么高科技产品或者技术将会被淘汰?有哪些新产品或技术会将其替代?


“近期,我个人认为不会有哪类高科技的产品被淘汰,但是会有改变,就是技术的升级。很多人想做一些颠覆性的产品,但事实上,很多时候证明一步到位还是比较困难的。即便是颠覆性的工作,比如AR、无人车等等,大家也在慢慢地从技术层面一步一个脚印儿去做。


image.png


之前大家觉得AR带上了眼镜就是一步到位了,但很多技术达不到这个程度,慢慢地就借助于手机平台,一点点增强AR的能力,利用手机让大家感受到了增强现实的技术。进行产品升级,增强现有的功能。


还有就是无人车,之前谷歌研发的全自动驾驶汽车,想用无人车代替公交汽车和人为驾驶,如果一步到位的话,产生的困难比较大。大家现在也是从无人驾驶每个阶段上,一步步进行技术更新。”



Q:如果有同学想加入您的团队,哪类人才是你们需要的?从个人来说,您更看重的是哪些能力?


“学习能力。因为计算机视觉技术发展非常快,所以接受知识的速度以及学习能力非常重要。


创新能力。在工作中遇到某些新问题,当前人没有一个较为完备的解决方法,这就需要当你无论好坏,都要提出自己的看法,有一个解决问题的方法去尝试。


交流和沟通的能力。现在人工智能做落地,你需要把自己的研究成果、新技术讲给大众听,所以无论你跟其他部门还是客户,工作中会有大量的交流和讨论,如果有高效的沟通和表达能力也是加分项。


在人才选拔上,我觉得客观来说,无论是谁不会具备所有能力,这样每个人的优势就显得格外重要。如果在简历和面试中能够突出优势,之前的学习经历或实习经历能够证明你的长处,有接受新事物、不断学习的潜质,我们会优先考虑这样的人选。”


Q:我们最近一直在筹划AI领航员的计划,旨在从应届毕业生中选拔优秀的人才,我司对于AI领航员有哪些具体的要求?


“AI领航员应该在AI的某些子领域有独到的想法,对整个领域有一定的把控能力,这些很难按照某些特定的标准来衡量。比如对待某个问题上,经过长期的积累,形成自己的想法和计划,对整个领域有一定的基础理解能力,这是我比较看好的。我觉得这不是通过哪些标准来筛选人才,除一些定向的标准外,我觉得还是从面试当中,深度了解、沟通,才会有合理的判断。”