【泡泡图灵智库】MaskFusion:实时多移动物体识别,跟踪和重建(arXiv)

2018 年 11 月 13 日 泡泡机器人SLAM

泡泡图灵智库,带你精读机器人顶级会议文章

标题:MaskFusion: Real-Time Recognition, Tracking and Reconstruction of Multiple Moving Objects

作者:Martin Ru ̈nz  Lourdes Agapito

来源:arXiv cs.CV

编译:刘小亮

审核:黄文超

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权


摘要

       大家好,今天为大家带来的文章是—MaskFusion:实时多移动物体识别,跟踪和重建,该文章发表于arXiv cs:CV 2018。


        本文所提出的MaskFusion是一个实时的,物体感知的,语义且动态的RGB-D SLAM系统。此系统超越了只输出几何地图的传统系统—MaskFusion包括识别,分割和分配语义类标给场景中不同的物体,同时跟踪与重建它们,即使它们独立于相机移动。当一个RGB-D相机扫描一个杂乱的场景,基于图像实例级语义分割将创建物体的语义掩码,允许实时识别目标和构建一个物体级世界地图表示。不同于先前基于识别的SLAM系统,MaskFusion 不需要先验知识或已知的物体模型,且它可以识别和处理多个独立运动的物体。不同于近期的语义能够使SLAM系统实现体素级语义分割,MaskFusion充分利用实例级语义分割来使语义标签融合到物体感知的地图中。本文展示了增强现实应用程序,演示了MaskFusion的地图输出的独特功能:实例感知,语义和动态下的环境。

主要贡献

      1、 利用以下输出的组合:(i)Mask-RCNN [14],一种强大的基于图像的实例级分割算法,可以预测多达80个物体的物体类别标签,以及(ii)基于分割算法的几何,从深度和表面法线生成对象边缘图; 增加物体语义掩码中对象边界的精度。

   2 、MaskFusion相对于以前的语义SLAM系统[5,7,27,39,43,45]的额外优势在于它不需要场景是静态的,因此可以检测,跟踪和构建多个独立移动的物体。

     3 、MaskFusion优于以前的动态SLAM系统[3,38]的优点在于它实时地利用来自大量物体的语义信息来增强动态地图。

算法流程

(a)异步组件时序:在这个时间轴,帧S和M用粗边框突出显示,由SLAM和Masking线程分别处理它们。而帧C(当前帧,队列Qf的队尾)用蓝色表示, 队列头部用绿色表示,又可用的物体掩码的帧用橘色表示。

(b)MaskFusion的数据流:相机帧被添加固定长度队列Qf中。SLAM系统(绿色)操作在队列头部。一旦结果(语义掩码)可用,语义掩码DNN就从尾部拉取输入帧并将帧更新回队列。

图1 SLAM后端和掩码网络及其交互的概述。


跟踪:每个物体的3D几何被表示为一组表面元素。通过最小化能量来跟踪每个模型的六自由度姿态,该能量结合了ICP误差(几何部分)与当前帧中对应点和所存储的3D模型之间的亮度稳定性的光测成本(RGB部分)。为了降低计算需求并增加鲁棒性,仅分别跟踪非静态对象。测试了两种不同的策略来判断对象是否是静态的:首先,基于运动不一致,类似于[38]; 第二,通过将被人触摸的物体视为动态物体。


分割:MaskFusion结合了两种类型的提示进行分割:语义和几何。Mask-RCNN [14]用于提供物体关于语义标签的掩码。虽然Mask-RCNN算法令人印象深刻并且提供了良好的物体掩码,但它有两个缺点。首先,算法不能实时运行,并且只能以最大5Hz的频率运行;其次,物体边界并不完美,它们往往会泄漏到背景中。为了克服这两个限制,我们运行几何分割算法,该算法基于深度不连续性和表面法线的分析。与语义实例分割相比,几何分割可实时运行并提供非常精确的对象边界。消极一面是基于几何的分割倾向于过分割物体。这两种分割策略的组合,基于每帧的几何分割和尽可能多的语义分割提供了两全的最佳结果,允许我们(1)实时运行整个系统(几何分割用于没有语义物体掩码的帧,而两者的组合用于具有物体掩码的帧),以及(2)由于几何分割的加入,获得改进边界语义物体掩码。


融合:通过使用物体类标将表面元素与正确的模型相关联,使每个物体的几何体随时间融合。 本文的融合遵循与[22,49]相同的策略。


主要结果

1、与其他方法进行定量比较。可以看到在高动态环境情况下,本文方法存在优势,轻动态环境优势减弱。

• VO-SF [20]: 一种接近实时的方法,用计算分段刚性场景流以分割动态对象。

• ElasticFusion EF [49]: 一个假定静态环境的视觉SLAM系统。

• Co-Fusion (CF) [38]: 一种通过运动分离对象的视觉SLAM系统。

• StaticFusion (SF) [40]:一种可分割和忽略动态部分的3D重建系统。

表1 与其他方法进行定量比较


2、本文还提供了增强现实的应用例子。

图2 估算杂货卡路里的应用程序

图3 显示与场景交互的虚拟角色的应用程序

Abstract

We present MaskFusion, a real-time, object-aware, semantic and dynamic RGB-D SLAM system that goes beyond traditional systems that output a geometry-only map – MaskFusion recognizes, segments and assigns semantic class labels to different objects in the scene, while tracking and reconstructing them even when they move independently from the camera. As an RGB-D camera scans a cluttered scene, image-based instance-level semantic segmentation creates semantic object masks that enable real-time object recognition and the creation of an object-level representation for the world map. Unlike previous recognition-based SLAM systems, MaskFusion does not require prior knowledge or known models of the objects it can recognize and can deal with multiple independent motions. Unlike recent semantics enabled SLAM systems that perform voxel-level semantic segmentation MaskFusion takes full advantage of using instance-level semantic segmentation to enable semantic labels to be fused into an object-aware map. We show augmented- reality applications, that demonstrate the unique features of the map output by MaskFusion: instance-aware, semantic and dynamic.


如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号


点击阅读原文,即可获取本文下载链接。

欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!

泡泡网站:www.paopaorobot.org

泡泡论坛:http://paopaorobot.org/forums/


泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

商业合作及转载请联系liufuqiang_robot@hotmail.com

登录查看更多
1

相关内容

即时定位与地图构建(SLAM或Simultaneouslocalizationandmapping)是这样一种技术:使得机器人和自动驾驶汽车等设备能在未知环境(没有先验知识的前提下)建立地图,或者在已知环境(已给出该地图的先验知识)中能更新地图,并保证这些设备能在同时追踪它们的当前位置。
基于视觉的三维重建关键技术研究综述
专知会员服务
154+阅读 · 2020年5月1日
3D目标检测进展综述
专知会员服务
187+阅读 · 2020年4月24日
专知会员服务
31+阅读 · 2020年4月24日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
【泡泡图灵智库】实时单目物体-模型感知稀疏SLAM(ICRA)
泡泡机器人SLAM
10+阅读 · 2019年7月12日
【泡泡图灵智库】LIMO: LiDAR-单目相机视觉里程计(arXiv)
泡泡机器人SLAM
47+阅读 · 2019年5月14日
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
【泡泡图灵智库】基于CPU的实时6D物体姿态估计(arXiv)
泡泡机器人SLAM
12+阅读 · 2019年1月26日
Monocular Plan View Networks for Autonomous Driving
Arxiv
6+阅读 · 2019年5月16日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Arxiv
3+阅读 · 2018年3月21日
VIP会员
Top
微信扫码咨询专知VIP会员