申请试用
登录
核心技术
以原创技术体系为根基,SenseCore商汤AI大装置为核心基座,布局多领域、多方向前沿研究,
快速打通AI在各个垂直场景中的应用,向行业赋能。

首个面向AR的SLAM数据集和基准发布 十二问解密背后的故事

2020-06-24

rwe4grth.jpg


由于AR/VR、机器人、自动驾驶、智能手机等应用的兴起,其中的关键技术SLAM(同时定位与地图构建)近年来变得非常火热。但由于缺乏合适的基准(目前行业内常用的数据集评测标准多限于跟踪精度),还比较难从AR的角度来定量地评估各种SLAM系统的性能。


为了填补这一领域空白,商汤科技和浙江大学联合发布了首个面向AR的单目视觉惯性SLAM数据集和评测标准,能够更全面地覆盖移动AR环境下的场景,构建了包括跟踪精度、初始化质量、跟踪稳定性和重定位时间等方面的更全面的评测标准,对SLAM算法研究有重要的指导意义。


近日,商汤君采访了该数据集和基准项目负责人、“浙江大学-商汤三维视觉联合实验室”副主任章国锋教授,深入探讨了这个数据集和基准的优势和行业意义。另外,浙江大学-商汤三维视觉联合实验室也是商汤产学研一体化发展的很好例子,章国锋教授也分享了对产学研一体化的深刻体会,以及十几年的研究心得和对5G时代SLAM技术发展趋势的独到见解。


数据集解读


Q(商汤君):这次数据集是针对单目视觉惯性SLAM场景,以后会做针对多目的数据集么?


A(章国锋):我们以后会支持更多的传感器,包括双目、RGB-D等。我们计划逐步地去完善这个数据集和基准,不仅支持更多的传感器类型,而且场景尺度会更大。现在主要是室内的场景,未来将会扩展到室外场景。


Q:目前这套SLAM评测数据集和基准主要应用于学术研究,还是产业界应用呢?


A:目前主要还是应用于学术研究,但对产业界应用也有指导意义。其实很多领域都有类似的基准。我们的基准提供了一个重要的评价依据,相信对面向AR应用的SLAM研究会起到一个比较重要的推动作用。当然,对于产业界来说,此次研究成果可以为OEM厂商、APP开发商和算法开发商带来多维度的评估数据,明确AR应用中会影响用户体验的核心要素,为产品的部署和最终的应用提供参考。


Q:我们的测试是否有一个精度的级别跟应用的场景级别的匹配关系?比如说达到一个什么样的精度能够适用于什么样的场景?未来会有这样一个评级的方向吗?


A:这个数据集目前只针对室内场景,室外大场景暂时还不能评测。对于精度匹配应用场景的问题,如果针对室内这种小场景,我们的数据集基本上能够评测是否满足某些AR应用。我们也在计划未来将这个数据集进一步扩展到室外大尺度场景,这样也能评测SLAM系统是否能满足室外大尺度场景的AR应用。


4rg5tr4h.jpg

室内场景下的视觉惯性SLAM


Q:这个数据集相对于其他数据集的核心优势是什么?


A:首先是数据来源不同。很多数据集是在无人机或者车载情况下录的,运动比较平稳,而我们的数据都是用手机录的,包括快速运动、强旋转、遮挡干扰、弱纹理等复杂情况下的数据。所以从数据本身来说,就是针对移动设备上的AR应用。


其次,我们针对AR应用制定了新的基准,这个也是以前没有的。以前的基准主要是评测跟踪定位的精度,而且数据的运动类型偏简单。我们不仅进一步完善了定位精度的指标,而且还根据AR应用的特点增加了初始化质量、跟踪稳定性和重定位时间等指标,并根据不同运动状态和场景环境组成了16种特定的AR测试场景。这个数据集和基准不仅能反映定位精度,还能对初始化和重定位性能以及鲁棒性进行量化呈现,这对AR十分重要。


Q:这个基准如何反映初始化和重定位性能以及鲁棒性?


A:因为AR应用对于初始化的时间和质量有比较高的要求,一般要求很短的时间完成初始化,而且初始化后的尺度精度要求比较高。因此我们专门设立了初始化质量这个指标,将初始化时间和初始估计的尺度精度综合起来考虑,能够反映实际AR应用的要求。


在重定位方面,我们专门设计了3个序列,故意在原始拍摄的图像序列里将一部分图像替换成了黑色图像,从而让SLAM系统进入跟踪丢失状态触发重定位。跟踪鲁棒性方面,我们也专门选了三种非常有挑战性的情况:快速运动、移动物体、相机遮挡,并从跟踪丢失时间、重定位误差和绝对位置误差这三方面来综合评估SLAM系统的跟踪鲁棒性。


Q:发布这个数据集和基准对推动行业发展有哪些意义?


A:首先是学术意义,这是一个学术界内新的SLAM数据集和基准,尤其对于面向AR的SLAM研究来说,意义还是比较重大的,因为之前没有专门针对AR的公开基准。


另外,对做SLAM算法研究的人来讲也会有指导意义,以前大家可能觉得只要跟踪定位精度高就够了,但现在会意识到,对于AR应用来说,还要考虑一些异常情况和非常有挑战情况下的鲁棒性,以及初始化的速度和精度。有了这个数据集和基准,他们可以定量地评测所研发的VSLAM/VISLAM算法在AR应用方面的性能,至少有了比较客观的评估依据。


此外,这个数据集和基准也会给包括OEM厂商、应用商和算法开发商一个概念:评估SLAM性能并不是只有跟踪精度这一个指标,针对AR应用还有初始化质量、跟踪鲁棒性和重定位时间等更多指标,才能比较全面地评估一个SLAM系统在AR应用方面的性能。


产学研产生1+1大于2的效果


Q:商汤很重视产学研一体化,浙大-商汤三维视觉联合实验室就是一个很好的例子,作为实验室负责人,想必您一定对于产学研一体化有更深的体会。


A:我是这么看的,企业通常有很强的工程开发和产品开发能力,但科研创新和研究能力方面可能并不强。当然,商汤是比较独树一帜的,这也是商汤能够得以脱颖而出的一个关键因素。


高校的研究团队则往往相反,比较擅长做前沿基础性和创新性的研究,但工程开发能力一般比较弱。因此,高校和企业应该做各自擅长的事情,并进行紧密合作,联合研发:高校的研究团队主要做偏前沿探索性的研究和提供技术指导,公司的研发团队主要负责工程和产品化,两边能够经常一起交流讨论,甚至一起工作,就会产生一个“化学反应”。产品要落地其实很不容易,仅靠学校的研究团队是不现实的。高校和企业的紧密合作和联合研发,可以实现技术的快速落地。


浙大—商汤三维视觉联合实验室成立的初衷就是为了很好地解决产学研一体化的问题。在联合实验室,老师、学生和研究员、工程师们可以一起工作,又有分工;老师主要提供理论和技术指导,学生主要做一些偏前沿探索性的研究和原型验证,而研究员、工程师则主要探索短期内有落地可能的技术以及产品化方面的研发工作。


两边紧密配合,出成果就会比较快,能够达到1+1大于2的效果。一些事实也证明了这一点。例如,我们和商汤一起联合研发的SenseAR增强现实平台,已经成功地在OPPO、小米的多款机型上落地,很好地支撑了高德地图AR导航、王者荣耀AR相机、一起来捉妖、OPPO AR测量等重要应用。


产学研一体化也是催生这次SLAM数据集和基准的基础。正因为有产业界切实的标准需求和应用经验,同时又有浙江大学和商汤深厚的学术体系为基础,才诞生了这个数据集和基准。一个基准,不仅要有高校学术机构认可,还需要产业界的企业共同推进,才能满足整个行业生态的发展需求。


坚持专注于一点才能产生大的影响力


Q:可以分享您在做研究方面的一些心得吗?


A:我从2004年开始做运动恢复结构(跟VSLAM非常相似,区别仅在于它是离线,而VSLAM是在线的)方面的研究,然后做VSLAM以及VISLAM,一直做到现在有十几年了,还是有蛮多这方面的心得和体会。


总结起来,最核心的一点就是要长期坚持专注在一个点上。比如SLAM,你是不是能坚持做这么多年,是不是真的想把这个问题解决掉。如果抱着这样一个态度去做研究,就能做得很深,甚至有可能某一天真的比较彻底地解决这个问题。


举个例子,今年的图灵奖颁给了深度学习的三位教父Yoshua Bengio、Geoffrey Hinton和Yann LeCun,他们坚持做了几十年的神经网络研究。我们看到人工智能领域这几年诞生了很多创业公司,也涌现出了许多成功的产品,这很大程度上也是得益于他们的杰出贡献。但在过去相当长的一段时间里,他们的研究工作是被忽视的,不被主流学术圈所认可的。


其实SLAM技术也不是这几年才有的,已经有几十年的历史了。做研究还是要坚持聚焦在某一个点上,不能打一枪换一个地方,否则你的工作不会有延续性,最终也不会产生多大的影响。


Q:如果遇到研究上的难点,应该怎样应对?有什么方法可以分享么?


A:既要专注,也要讲究方法。当你带有很高的热情去做事情,肯定会保持专注。对这个事情真正有兴趣甚至有激情才能保持长期的专注力,这是根本所在。


另外就是要讲究方法,比如调BUG,其实也有很多技巧,不能用最笨的方法去做,那样效率肯定不会高。不仅要自己琢磨新的方法,不断思考如何改进,还要多跟优秀的人在一起,从优秀的人那里直接学到有用的东西,而不是总要自己踩了很多坑才能学到一点东西,那样过程会慢很多。


Q:多跟比自己优秀的人在一起,有时候会得到更多的灵感。


A:没错。人比较容易被自己的经验和知识所局限,因此要多和优秀的人在一起。他们之所以优秀,肯定是有他们的过人之处,你要发现到他们的过人之处,甚至可以学到这个过人之处,那你也许很快也能变成比较优秀的人。


5G时代的SLAM和AR


Q:您怎么看SLAM未来几年的发展趋势?


A:SLAM技术根据传感器类型的不同可以分为VSLAM、VISLAM、RGB-D SLAM、LiDAR-SLAM等等。VSLAM如果从研究的角度来讲,在理论上已经比较成熟了,所以现在这个领域发论文已经挺难的。


我觉得VSLAM未来的发展一个方向是结合深度学习,依靠深度学习所学到的一些先验来解决传统算法难以解决的一些问题,这可能会带来一些新的突破。另外,多传感器信息融合,即将多种传感器信息融合起来进行优势互补,也是SLAM技术的一个发展方向。


其次是新的传感器的出现,容易带来算法上的革新。一个典型的例子就是Event Camera(动态视觉传感器)出来了之后,涌现出了很多相关的研究工作和论文。


还有一个是SLAM技术的高度定制优化,是产品落地的关键。比如扫地机器人的SLAM、车载的SLAM、手机上的SLAM等等都不太一样,需要针对不同场景做高度定制优化,才有可能使技术真正落地,具有很强的竞争力。


Q:您觉得5G会给SLAM和AR带来哪些新机遇?


A:5G如果真能达到理想的超低延时、极高带宽,那么应用的想象空间会很大,大部分耗时的计算和庞大的数据可以放在云上,很多问题就解决了。


但是我认为目前实际情况可能还没有那么理想,首先低延时并没有那么容易解决,现在号称延时小于1毫秒,一般指的是空口延迟,只占整个通信系统延迟的一小部分。如果全部环节加起来,延时可能还是比较大的,需要各个环节的充分优化才有可能达到比较理想的低延时。而且在人群密度很高的地方,如果大家在同时使用5G,高带宽也比较难保证。


当然即使目前5G技术还没有达到那么理想,但只要能合理地利用,对于一些SLAM和AR应用也能起到很大推动作用。5G的到来肯定会加快AR技术朝着云和端结合的趋势发展。即使目前5G技术在实际应用中还没有达到真正的超低延时,我们依然可以将一些计算量大但实时性要求不是特别高的优化计算放到云上,优化完之后再传回到移动终端上。具体地,像SLAM技术中的地图全局优化、稠密的三维几何重建等,完全可以放在云上计算,这样即使在计算性能比较差的低功耗移动设备上也能实现高保真的AR效果。


注:本次单目视觉惯性SLAM数据集和基准的相关论文已在线发表在由中国科学出版社主办的面向虚拟现实和智能硬件的专业性学术期刊《虚拟现实与智能硬件》上,数据集、样例代码和相应的评测工具也已同步开放在基准网站。


rfhgtrjh.jpg