【泡泡图灵智库】DeepTemporalSeg：具有时间一致性的3D激光雷达语义分割

会员服务 ·

【泡泡图灵智库】DeepTemporalSeg：具有时间一致性的3D激光雷达语义分割

2019 年 9 月 5 日 泡泡机器人SLAM

泡泡图灵智库，带你精读机器人顶级会议文章

标题：DeepTemporalSeg: Temporally Consistent Semantic Segmentation of 3D LiDAR Scans

作者：Ayush Dewan, Wolfram Burgard

来源：arXiv [cs.RO] 2019

播音员：

编译：黄文超

审核：杨小育

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是 —— DeepTemporalSeg :Temporally Consistent Semantic Segmentation of 3D LiDAR Scans，该文章目前发表于arXiv。

了解环境的语义特征是机器人自主运行的关键因素。在本文中，作者提出了一种深度卷积神经网络（DCNN），用于将LiDAR扫描数据语义分割为汽车，行人或骑车的人。该架构基于dense blocks，并有效利用深度可分离卷积来限制参数数量，同时仍能保持最先进的性能。为了使DCNN的预测在时间上一致，作者提出了一种基于贝叶斯滤波的方法。该方法使用神经网络的预测输出来递归地估计扫描数据中的点的当前语义状态。该递归估计使用从先前扫描获得的知识，从而使得预测在时间上一致并且对孤立的错误预测具有鲁棒性。作者将提出的架构性能与其他最先进的神经网络架构进行了比较，并提出了实质性的改进。对于所提出的贝叶斯滤波器方法，作者在KITTI跟踪基准测试中展示了各种序列的结果。

主要贡献

1、提出了一个卷积神经网络架构用于3D激光雷达的语义分割，分割类别为车，人和骑车的人；

2、提出了一种贝叶斯滤波方法，使得神经网络的预测具有时间一致性。

算法流程

图1 算法框架

数据投影

为了利用成熟的 2D 卷积框架，首先需要把 3D 数据投影为 2D 图像。在本文中，作者将一帧激光雷达数据投影为 5 张 2D 图像，每张图像都编码了不同模态的特征：深度，表面反射强度，点密度和 3D 坐标。这些图像堆叠成为一个 5 通道的输入，由后续的卷积神经网络处理以进行分割。

网络架构

为了实现语义分割的功能，作者提出了一个全卷积神经网络架构，并命名为 DBLiDARNet，网络架构基于dense block。与其他用于语义分割的网络类似，网络由用于学习特征的编码器和用于上采样的解码器组成，解码器用于产生与输入相同尺寸的输出。在编码器中，本文提出的架构具有两个卷积层，3个dense blocks，和两个最大池化层。解码器具有两个上卷积层，并且使用了两个深度可分离卷积的dense blocks。对于输入的图像，其宽度通常比高度大很多(512x64)，这是由激光雷达的横向视野和纵向视野导致的。因此在下采样步骤中就不能以16、32这样的倍数直接下采样，否则会导致特征图的高度过小。作者采用的是4倍下采样。

完整的网络参数见表1，各层的卷积核尺寸均为3x3，而最后一层是1x1的卷积用于通道变换。在dense block中，增长率参数设为16。

表1 网络各层参数

贝叶斯滤波方法

神经网络的输出是每个点属于各个类别的softmax概率，由于对各帧的预测是独立进行的，难以避免的会产生一些错误的结果，因此引入贝叶斯滤波可以使得网络的预测具有时间一致性。设O为状态变量，取值为{0, 1}表示输出某个类别的概率。c为某个类别，ξ为神经网络的输出，于是其置信度可表示为：

利用贝叶斯法则和马尔可夫假设，上式可写为：

同理有：

引入对数概率 l = log(p / (1 - p))，则每个点属于语义类别 c 的概率可由式(3)除以式(4)得到：

其中 P(O | ξ) = ξ，l0为初始值。通过该式，本文提出的算法的预测输出就不仅与当前神经网络输出有关，还与上一刻的网络输出有关。为了得到迭代项，还需要在两帧间进行数据关联。作者通过估计帧间的相对运动，随后使用最近邻关联得到前后两帧相对应的点。

主要结果

表2 本文算法与其他神经网络的对比。

评估指标为各类的IoU以及平均IoU

表3 Ablation study结果。

作者比较了不同的网络以及不同的降采样策略。

表4 在KITTI数据集不同序列上测试贝叶斯滤波器对神经网络分割性能的改进，IoU均有4% ~ 9%的提升。

图2 更多的分割结果展示

Abstract

Understanding the semantic characteristics of the environment is a key enabler for autonomous robot operation. In this paper, we propose a deep convolutional neural network (DCNN) for the semantic segmentation of a LiDAR scan into the classes car, pedestrian or bicyclist. This architecture is based on dense blocks and efficiently utilizes depth separable convolutions to limit the number of parameters while still maintaining state-of-the-art performance. To make the predictions from the DCNN temporally consistent, we propose a Bayes filter based method. This method uses the predictions from the neural network to recursively estimate the current semantic state of a point in a scan. This recursive estimation uses the knowledge gained from previous scans, thereby making the predictions temporally consistent and robust towards isolated erroneous predictions. We compare the performance of our proposed architecture with other state-of-the-art neural network architectures and report substantial improvement. For the proposed Bayes filter approach, we show results on various sequences in the KITTI tracking benchmark.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。

点击阅读原文，即可获取本文下载链接。

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡网站：www.paopaorobot.org

泡泡论坛：http://paopaorobot.org/bbs/