【泡泡图灵智库】使用结构规律的增量式视觉惯性3D网格生成（ICRA）

会员服务 ·

【泡泡图灵智库】使用结构规律的增量式视觉惯性3D网格生成（ICRA）

2019 年 6 月 12 日 泡泡机器人SLAM

泡泡图灵智库，带你精读机器人顶级会议文章

标题：Incremental Visual-Inertial 3D Mesh Generation with Structural Regularities

作者：Antoni Rosinol, Torsten Sattler, Marc Pollefeys, Luca Carlone

来源：ICRA 2019

编译：李鑫

审核：夏友杰

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是——Incremental Visual-Inertial 3D Mesh Generation with Structural Regularities该文章发表于ICRA 2019。

视觉惯性里程计(VIO)算法通常依赖于场景的点云表示，而不是对环境拓扑进行建模。相反的是，3D网格提供了一个更丰富、更轻量级的模型。然而，如果网格是通过VIO三角化得到的稀疏且有噪声的3D路标点构建成的，那么网格一般会不适合真实场景。为了使得网格规则化，之前的方法通常是将状态估计和3D网格规则化的步骤分离，并将3D网格限制为当前中帧或者是让网格无限增长。作者提出了在新的因子图公式中检测和加强结构规则来紧耦合网络规则化和状态估计。作者还提出通过将网格的范围限制为VIO优化的时间范围来逐步构建网络；生成的3D网格比逐帧的方法覆盖来更大的场景，同时使用的内存和计算的复杂度仍然是有限的。结果表明，当结构规律存在时，作者的方法成功地规划了网格，同时提高了定位精度，并且在没有规律性的场景中仍然可以运行。

主要贡献

1. 提出逐步构建一个限制在VIO滚动优化范围的3D网格；

2. 提出使用3D网格来检测和优化问题中的结构规律，从而提高状态估计和网络的准确性；

3. 在EuRoC数据集上对所提出的方法进行实验和验证。

算法流程

图1 作者提出了的VIO算法，从关键点(a)的2D Delaunay三角剖分开始，逐步构建环境的3D网格。

作者使用的是基于关键帧方法的双目视觉惯性系统。下面将从前端和后端两方面来介绍作者提出的算法。

1. 前端

1.1 3D网格的生成

使用VIO生成的稀疏点云来创建3D网格是很困难的，因为（i）路标点的3D位置有噪声的，有些还是异常值; （ii）点云的密度非常不规则; （iii）点云是不断变化的：3D点有可能被删除、添加或者是位置被更新。因此，应该避免从路标点执行3D四面体化的复杂算法。所以作者仅在最新帧中的跟踪关键点上执行2D Delaunay三角剖分，如图1(a)所示; 并使用每个跟踪的关键点具有相关联的3D路标的真实位置将2D三角剖分投影到3D中（图1(b)）。对于第一帧，暂时没有跟踪关键点，所以不生成3D网格。

1.2 传播3D网格

虽然有些算法每一帧都会更新网格，但是作者尝试在包含多帧的固定滞后平滑优化问题的后退层上保持一个网格。作者这么做的原因有三点：（i）包含多个帧的网格覆盖场景区域更大，提供的信息不单单覆盖相机当前视野；（ii）作者希望捕捉影响优化问题中任何里程碑式的结构规律；（iii）将3D网格固定到优化问题的时间范围限制了内存使用和更新网格的计算复杂性。

1.3 规则性检测

通过根据网格的三角形面进行推理，可以以非迭代的方式提取场景中的几何体（与RANSAC方法不同）。特别是，作者对路标点之间的共面规律感兴趣，需要首先在场景中找到平面。在作者的方法中，只检测垂直（即墙壁）或水平（即地板，桌子）的平面，这些平面是人造环境中常见的结构。图1(b)显示了与绿色垂直墙相关的网格面，而蓝色面对应于地板。为了检测水平平面，作者使用垂直法线对网格的面进行聚类，然后构建顶点高度的一维直方图。在用高斯滤波器平滑直方图之后，直方图的结果局部最大值对应于主要的水平平面。在这些平面中，选择具有最多内点的候选平面（高于最小阈值20个面）。为了检测垂直平面，聚集具有水平法线的网格面。然后，建立一个二维直方图；其中一个轴对应于从3D面的平面到世界原点的最短距离，而另一个轴对应于法线相对于垂直方向的方位角。候选平面选择的方式与水平情况相同。

1.4 数据关联

对于新检测到的平面，仍然需要关联哪些路标点在一个平面上。为此，作者使用原始直方图中被给定平面选取的3D面的一组路标点。一旦检测到一组新的平面，仍然需要检查这些平面是否已存在于优化问题中以避免重复的平面变量。因此，只需将法线和距离与平面原点进行比较，看其是否彼此接近。

2. 后端

2.1 状态空间

如果用K_t表示直到时间t的所有关键帧的集合，则关键帧i∈Kt的系统xi的状态由IMU方向R_i∈SO(3)，位置p_i∈R^3，速度v_i∈R^3和偏差b_i = [bgi bai]∈表示R^6。

2.2 测量

作者的系统输入包括来自摄像机和IMU的测量。将关键帧i处的图像测量值定义为C_i。相机可以观察到多个路标点l，因此C_i包含多个图像测量z_{li}，其中，区分将用于进一步结构规律的路标点l_c（其中c代表“受约束的”路标点），以及无结构的保留路标点l_s（s代表“无结构规律的”）。将在两个连续关键帧i和j之间获得的IMU测量值集合表示为I_{ij}。因此，将时间t内所有的测量集合定义为Z_t：

2.3 构造因子图模型

使用一组测量值Z_t 来估计变量X_t的后验概率p(X_t|Z_t)。利用测量值之间的标准独立性假设，可以得出以下公式，将不同的值分组，并使用贝叶斯规则（忽略了正态化因子，因为它不会影响结果）。

(4a)对应于已知的关于X_t的先验信息。因子φ_0代表一个之前在第一状态的优化的时间范围。(4a)包含了约束路标点lc和平面之间的规律性因素φ_Rπ。还包含了数据关联术语δ(l_c,π),当路标点l_c被关联到平面π的时候返回1,否则0。

(4b)中，因子关乎只依赖于连续关键帧(i, j)∈K_t的IMU测量。

(4c)表示了相机测量值对应的因子。

最后根据方程构建出的因子图如图2所示。

图2 结合无结构（φ_{l_s}），投影（φ_{l_c}）和规则化（φ_R）因子的VIO因子图。因子φ_R表示路标点l_i和平面π_0之间的相对约束。

2.4 最大后验估计

由于只关心在给定观测Z_t下的最可能的X_t，所以计算最大后验概率估计。在0均值的高斯噪声假定下，可以将问题转化为后验的最小负对数。这样就可以求解最小二乘问题了。

2.5 规律约束

对于结构误差r_R，使用地标ρ_{l_c}∈R^3和平面π= {n，d}之间的共平面约束，其中n是平面的法线，其中S^2流形，d∈R是到世界原点的距离：r_R = n·ρ_{l_c}-d。然而，这种平面表示方法过参数化，导致信息矩阵奇异化，不适用于高斯-牛顿优化。为了避免这个问题，将在S^2的切空间上进行优化。

主要结果

作者将提出的方法与真实数据集上的现有技术进行对比，并评估轨迹和地图估计精度以及运行时间。使用EuRoC数据集，数据集有从室内飞行的微型飞行器记录的视觉和惯性数据。EuRoC数据集总共包含两个不同场景下的11个数据集。Machine Hall (MH) 是工业设施的内部。MH包含很少（平面）规律。Vicon Room (V)类似于可以看到墙壁，地板和天花板，以及其他平面表面（盒子，堆叠床垫）的办公室。

为评估所提出方法的优点，作者比较了三种递进式构建的方法。首先，S表示为仅使用无结构因子的方法。其次，SP表示为使用无结构因子的方法，并结合共面约束的路标点的投影因子，但不使用规则因子。最后，SPR表示使用无结构，投影和正则因子。IMU因子在三种方法中都有使用。还将结果与一些最先进的算法实现进行了比较。但请注意，这些算法使用单目相机，而作者使用立体相机。所有的算法都没有使用回环。

表1 S，SP和SPR的绝对平移误差。所提出的SPR方法表现最为优秀。

表2 几种最先进的算法和所提出的算法的RMSE比较。

图3 对于SP方法（顶部）和SPR（底部），从估计的3D网格采样的点云图对比，其颜色表示与真值(V1_01)的误差.

Abstract

Visual-Inertial Odometry (VIO) algorithms typically rely on a point cloud representation of the scene that does not model the topology of the environment. A 3D mesh instead offers a richer, yet lightweight, model. Nevertheless, building a 3D mesh out of the sparse and noisy 3D landmarks triangulated by a VIO algorithm often results in a mesh that does not fit the real scene. In order to regularize the mesh, previous approaches decouple state estimation from the 3D mesh regularization step, and either limit the 3D mesh to the current frame or let the mesh grow indefinitely. We propose instead to tightly couple mesh regularization and state estimation by detecting and enforcing structural regularities in a novel factor-graph formulation. We also propose to incrementally build the mesh by restricting its extent to the time-horizon of the VIO optimization; the resulting 3D mesh covers a larger portion of the scene than a per-frame approach while its memory usage and computational complexity remain bounded. We show that our approach successfully regularizes the mesh, while improving localization accuracy, when structural regularities are present, and remains operational in scenes without regularities.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。

点击阅读原文，即可获取本文下载链接，提取码为：ybgz。

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡网站：www.paopaorobot.org

泡泡论坛：http://paopaorobot.org/bbs/