【泡泡图灵智库】学习用于地点识别的3D片段特征(arXiv)

2019 年 7 月 13 日 泡泡机器人SLAM

泡泡图灵智库,带你精读机器人顶级会议文章

标题:Learning 3D Segment Descriptors for Place Recognition

作者:Andrei Cramariuc, Renaud Dubé, et al.

来源:arXiv [cs.RO] 2018

编译:黄文超

审核:杨小育

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

    大家好,今天为大家带来的文章是:学习用于地点识别的3D片段特征

    

    在没有全局定位信息的情况下,地点识别是在任何环境中实现定位,建图和导航的关键功能。大多数地点识别方法依赖于图像,点云或二者的组合。在这项工作中,作者利用片段提取和匹配方法在基于LiDAR的3D点云地图中实现位置识别。一个重要的挑战是在观测点发生变化或出现遮挡时如何正确识别对应的片段。作者提出了使用基于学习的方法,以达到比先前已有的方法更高的召回率。使用当前最先进的分类器:卷积神经网络(CNN),作者提出了一种基于学习描述符的片段识别新方法。在本文中,作者比较了三种不同网络结构和训练方法的有效性。在城市驾驶场景中收集的真实数据中通过实验证明了本文所提出的基于学习的方法要优于手工提取的特征描述。

主要贡献

    1、提出了一个新的基于深度学习的生成3D点云片段描述子的方法;

    2、在真实世界的数据上进行了详尽的实验,展示了该方法的高效性。

算法流程

    使用卷积神经网络生成特征描述子的方法通常来说有三种:一是把卷积中间某一层的输出作为特征描述子,但是这种特征未必能满足我们期望的性质。例如对于从点云片段中提取的特征,我们希望其具有旋转不变性以及对遮挡的鲁棒性;第二种是显式地使用损失函数来迫使神经网络学习到的特征满足这些性质,但是这种方法的训练过程比较复杂,会影响模型收敛的速度;第三种为自编码器,可以同时完成压缩原始数据和提取特征两个任务,但是两种没有直接联系的任务之间可能会有互相矛盾的优化目标。

    本文作者使用网格搜索设计了一个性能较好的特征提取网络,其结构如图1所示。对于如何训练该网络,作者提出了三种策略,并分别进行了实验验证。

图1 特征提取网络架构


    在训练网络之前需要对点云数据进行预处理。预处理的步骤为:首先对每一帧点云进行基于区域生长的体素网格分割,随后根据相邻帧间的匹配关系对分割出的点云片段进行分组。也即,两帧点云中被认为是同一个片段的属于一组,这是根据点云片段质心距离来决定的。接着将点云片段缩放到固定大小的体素网格中,并且去均值、除方差归一化。

    预处理完后就可以对网络进行训练。作者提出的三种训练策略分别为:基于组的分类训练,基于孪生网络的训练和基于对比损失函数(contrastive loss function)的训练,其结构分别如图2(a)~(c)所示。

图2 三种训练特征提取网络的策略


基于组的分类训练

    前文提到了在预处理过程中对分割出的点云片段进行了分组。这里将每个组作为一个类别,在特征提取网络之后训练一个分类网络(图2(a))以交叉熵损失来训练。这样有一个好处是类别数远大于特征维度,迫使网络学习到更加具有泛化性的特征而不是专注于某些特定的特征。


基于孪生网络的训练

    孪生网络接受两个点云片段输入,包含两个相同的特征提取网络,随后两个网络的输出又传入第三个网络来判断两个输入的相似性(图2(b)),在进行网络推断时,特征提取部分可以单独使用。


基于对比损失函数的训练

    对比损失函数的定义如下,其中 y 代表两个特征向量是否匹配,m 是损失函数想要在正负样本对之间添加的距离。这种训练方式的目的在于最小化匹配的特征向量之间的欧氏距离,而最大化不匹配的特征向量之间的欧氏距离。损失函数直接应用到特征描述符上,因此不需要训练额外的分类网络(图2(c))。训练时选择最难的样本,即两个具有最大欧氏距离的匹配样本,和两个具有最小欧氏距离的不匹配样本。

主要结果

    作者取 KITTI 数据集中的两次驾驶数据对算法进行测试,第一次驾驶数据用于生成训练集和验证集,第二次用于测试集。三种网络的训练过程如图3所示。

图3 三种训练策略的训练过程。(a)基于组的分类训练,

(b)基于孪生网络的训练,(c)基于对比损失函数的训练


    对于第一种评价指标,作者使用了ROC曲线。除了孪生网络,其他的方法都额外训练了一个随机森林(RF)分类器来判断输入样本是否匹配,Eigen代表的是非学习的手动提取的基于特征值的特征。结果图如4所示。

图4 不同方法的ROC曲线


    对于第二种评价指标,作者比较了不同方法提取到的特征在特征空间内进行最近邻搜索的匹配性能。结果如图5所示。

图5 根据特征描述子来提取匹配片段的准确度比较

Abstract

In the absence of global positioning information, place recognition is a key capability for enabling localization, mapping and navigation in any environment. Most place recognition methods rely on images, point clouds, or a combination of both. In this work we leverage a segment extraction and matching approach to achieve place recognition in Light Detection and Ranging (LiDAR) based 3D point cloud maps. One challenge related to this approach is the recognition of segments despite changes in point of view or occlusion. We propose using a learning based method in order to reach a higher recall accuracy then previously proposed methods. Using Convolutional Neural Networks (CNNs), which are state-ofd-the-art classifiers, we propose a new approach to segment recognition based on learned descriptors. In this paper we compare the effectiveness of three different structures and training methods for CNNs. We demonstrate through several experiments on real-world data collected in an urban driving scenario that the proposed learning based methods outperform hand-crafted descriptors.


如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号


点击阅读原文,即可获取本文下载链接。

欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!

泡泡网站:www.paopaorobot.org

泡泡论坛:http://paopaorobot.org/bbs/


泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

商业合作及转载请联系liufuqiang_robot@hotmail.com

登录查看更多
1

相关内容

根据激光测量原理得到的点云,包括三维坐标(XYZ)和激光反射强度(Intensity)。 根据摄影测量原理得到的点云,包括三维坐标(XYZ)和颜色信息(RGB)。 结合激光测量和摄影测量原理得到点云,包括三维坐标(XYZ)、激光反射强度(Intensity)和颜色信息(RGB)。 在获取物体表面每个采样点的空间坐标后,得到的是一个点的集合,称之为“点云”(Point Cloud)
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
专知会员服务
31+阅读 · 2020年4月24日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
八篇 ICCV 2019 【图神经网络(GNN)+CV】相关论文
专知会员服务
29+阅读 · 2020年1月10日
【泡泡点云时空】FlowNet3D:学习三维点云中的场景流
泡泡机器人SLAM
41+阅读 · 2019年5月19日
【泡泡点云时空】完美配准:具有平滑密度的3D点云配准
泡泡机器人SLAM
60+阅读 · 2019年5月16日
【泡泡图灵智库】基于几何一致性网络的摄像机运动估计
Monocular Plan View Networks for Autonomous Driving
Arxiv
6+阅读 · 2019年5月16日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
8+阅读 · 2018年1月25日
VIP会员
Top
微信扫码咨询专知VIP会员