GMIC北京2017 | 速感科技创始人陈震:为机器人构建“三维世界”

GMIC北京2017 | 速感科技创始人陈震:为机器人构建“三维世界”

[导读] 4 月 27 日,2017 GMIC(全球移动互联网大会)北京站拉开帷幕。以AI+为代表的行业技术先锋,已经吹响了新一轮产业变革的号角,未来将由他们引领更多行业领域内的新趋势。

27日下午,硬蛋AI+产业峰会亮相2017GMIC大会(全球移动互联网大会),速感科技创始人兼CEO陈震应邀参加“AI原力觉醒,创新势力”主题。并就如何为机器人构建三维世界,发表了演讲。以下为内容摘要(后期整理与补充完善)。

速感科技成立于2014年,是专门为下游机器人为主的B端厂商解决机器人视觉方案的公司。我们主要是用低成本、高效的软硬件一体化的方案帮助这些用户,跟机器人相关的感知、定位、构图、避障、探索相关的一系列的问题。我今天演讲的题目是“为机器人构建三维世界”。

我们知道,随着深度学习神经网络逐渐融入的第三波的人工智能浪潮里,各种各样的智能设备已经逐渐走到了我们生活当中,比如说快递机器人、扫地机、服务机器人。在这里面有一个突出的问题,如何帮助这些智能设备,解决它们在移动过程所需要,或者是所面临的问题。

在整个人类的三维世界当中,人是通过视网膜成像解决三维视觉原理,人们通过视网膜人脑后面的神经元进行计算,然后再传递给小脑,进行人体的四肢相关的运动和决策。对于机器而言,没有这么大量的数据计算能力,如何解决它们在过程当中的感知问题。

我们看到的这幅图是利用一个非常高成本的,成本造价上万的激光雷达,他可以在每秒钟获取7000到8000的二维数据点,来构成二维的激光雷达信息,来帮助一个二维平面的,比如说我们现在看到的扫地机,在二维空间中的定位、导航的问题,但是他没有办法解决在三维过程中间的成像,以及物体躲避的问题。

这两年非常兴起的是多线的激光雷达,多线式激光雷达最大的问题是动辄上万,现在做到了7000到8000这样的价格。我们能做什么?成本大概在几块美金的摄像头,就可以达到同时获取25万、30万的数据点的像素颗粒,我们通过这样的像素颗粒,配合着RGB信息,就可以实时传递到后端进行计算,利用低成本的摄像头,进行三维空间的数据获取以及计算功能。

这个是在三维空间当中获取到的三维数据信息点,进行后端一系列的运算,得到位置、图像的变化。这个核心算法叫Vslam算法。速感科技一直在做的事情就是如何解决前端Vslam算法的数据采集,后端Vslam算法的数据计算,以及再后端Vslam算法的小型化、模块化和前端化的计算过程。

这里有一个上世纪80年代到今天,整个视觉系统的演进过程。第一幅图像是美国的机器人斯坦福研究院在1980年推出的移动机器人。这样一个移动机器人完成了自顶层向底层的视觉整体架构的设计,这拉开了移动机器人在上世纪80年代到今天的机器人发展的大幕。这个是在立体视觉技术里通过采用多个摄像头同时成像的原理,来帮助星球探测器获取在未知环境下的三维数据采集功能。

我之前在很多次公开课上分享了Slam技术。2010年的时候,美国微软公司联合了以色列的创业公司,推出了第一代的交互传感器,他完成的功能可以同时完成三维数据的采集获取并且进行体感方面的相关交互。在2013年,在中国发射的月球探测器上也开始应用了三维数据采集功能,在一个未知环境的地形下形成一个三维地图。大疆在2015年发布的产品中搭载了视觉成像原理。在整个视觉发展过程当中,VSlam技术是在10年之后开始逐渐走入人们的视野。

在VSlam系统的框架里,整体性分硬件和软件二部分的算法设计和实现,在软件方面分前端和后端的不同架构。VSlam算法的前端化涉及到的是嵌入式的特征提取和VIO,是结合现在的惯性测量单元来帮助前端的数据采集进行数据优化的过程。

这幅图片是速感科技在这几年过程当中做的一套VSlam算法前端的,及嵌入式特征提取,大概在20毫秒左右的特征信息,进行50个三维特征点的提取和轨迹优化。

这是后端,后端包括闭环检测和轨迹优化。我们从一个位置,A点到B点到C点到D点,可能A点到D点之间会形成一个局部的环路,在这个环路当中会涉及到很多全局特征轨迹的优化,这里面就有一个突出的算法,叫闭环检测,以及相关的轨迹优化。在这里面,轨迹优化又分为了几个算法,比如说我们知道基于图优化和基于概率优化。我们是用一套基于图优化的方法,来辅助Vslam算法在后端进行整体的数据轨迹的优化。

在硬件实现上,14年搭建VSlam平台的时候,采用的也是前端数据采集,和后端类似NUC主流的嵌入式小型计算机来完成VSlam的算法架构。它的数据参数是整个系统的功耗在10瓦左右,每秒钟可以达到15赫兹的运算,整体重量2千克。右边这个是在去年年底推出来的M32传感器,可以达到的整体参数是多少?我们在今天可以做到1瓦的功耗,90赫兹的刷新频率,体积只有20克。我们完成了从前端的数据采集,再到后端整个VSlam算法的运算。

这样的模组设计为什么可以做到这么小?而且可以做到小型化?我们在14年初搭建这个系统的时候发现了很多的问题,比如说功耗、散热、重量,所以我们就进行了结构性的设计。把VSlam通过模组性的设计,通过嵌入式,通用处理器进行了VSlam算法嵌入式的移植。

在今天,很多的视觉公司有各种各样的方案,比如说有双目方案,有单目方案,不同的方案代表意味着什么?我可以以一个更直白的形式告诉大家,应用场景决定了最终的方案选择。我们提到了速感科技在去年推出M32的视觉模组,以及在今年推出的L01视觉模组,它应用的前端是不同方案,但是在整体方案的后端以及视觉的选用的应用场景,双目结构光适合于室内的非结构化空间,对于一个双目方案,更适合于室外大尺度的空间,单目的方案更适用一个低成本,甚至是一个扫地机、智能玩具的方案。

VSlam算法有很多在生活中的应用,比如说在今天,我们可以将VSlam算法和体感设备、数据采集应用在智能交互上。国内很多互联网电视厂家都在研究下一代智能电视跟人的交互,比如说手势交互、体感交互。现在的AR设备和穿戴设备,刚刚提高了16年初微软发布的带6核的VPU的产品,它里面就是多目的摄像头阵列。

现在的AR设备和穿戴设备,刚刚提高了16年初微软发布的带6核的VPU的产品,它里面就是多目的摄像头阵列。

这样一个服务型机器人在酒店应用,遇到的问题是上下楼梯、行人的躲避。目前的单线式的激光雷达依然没有办法解决我在上述说的问题。

这是扫地机,这款扫地机具备了视觉定位的功能,还可以理解你的家庭信息,理解你家庭里不同的场景,来选择不同的清扫策略、规划策略,以及相关的决策。这里面搭载了单目Slam的模组。

速感科技在这三年过程当中,在产品线上除了完成了几款VSlam的传感器以外,我们目前还拥有工业级Slam的控制器以及和相关的控制平台,是分别和德国的高精度传感器公司、和英特尔相关的合作完成的产品的设计搭建。

最后分享一下我们认为的视觉技术,尤其是以SLAM为核心的视觉技术的发展趋势,就是我们提到的小型化、模块化、前端化。速感科技在近几年的时间里,也一直致力于使我们的人员、产品朝着这个目标方向努力的推进。

(完)

速感科技致力于帮助行业用户利用低成本、高效的视觉融合方法解决空间中智能设备的感知、定位、导航、规划等关键应用问题。成立至今先后获得北京市高新技术企业、优秀创新创业企业,2016年中国最具投资价值人工智能创业公司,中关村双创服务机器人产业联盟(RFC)首批成员企业,并于2016年10月成为英特尔(中国)官方供应商。团队主创人员是来自世界一流高校国家实验室博士、硕士。资深管理层成员拥有超过十年外资企业及上市公司管理背景。技术团队曾承担多项企业及国家重点基础项目的联合研发。

编辑于 2017-05-03 15:13