微信AR技术探索之(3)：SLAM技术在AR中的应用

2017 年 9 月 13 日 微信AI 解洪文

引言

近几年来，随着各商家AR推广活动的出现，再加上社交类视频APP中AR效果的应用，现实场景中的AR展示逐渐被人们所熟知和接受，如何保证虚拟角色和现实场景的完美融合也成为了影响AR展示效果的重要因素。SLAM技术由于能够恢复相机和环境之间的空间位姿关系，成为了链接虚实的关键技术之一。本文简要介绍SLAM技术及视觉SLAM关键组成，并探讨其在AR中的应用，最后展望其技术发展趋势。

1. SLAM 技术

SLAM（Simultaneous Localization and Mapping），同步定位与地图构建，最早在机器人领域提出，它指的是：机器人从未知环境的未知地点出发，在运动过程中通过重复观测到的环境特征定位自身位置和姿态，再根据自身位置构建周围环境的增量式地图，从而达到同时定位和地图构建的目的。由于SLAM的重要学术价值和应用价值，一直以来都被认为是实现全自主移动机器人的关键技术。

如下图，通俗的来讲，SLAM回答两个问题：“我在哪儿？”“我周围是什么？”，就如同人到了一个陌生环境中一样，SLAM试图要解决的就是恢复出观察者自身和周围环境的相对空间关系，“我在哪儿”对应的就是定位问题，而“我周围是什么”对应的就是建图问题，给出周围环境的一个描述。回答了这两个问题，其实就完成了对自身和周边环境的空间认知。

2. SLAM 技术对 AR 的重要性

AR的本质是虚拟元素和现实的完美融合，相比于VR，AR产品无论算法、软件的复杂度还是硬件的复杂度都增大了很多。

如上图，AR系统的三个关键技术点是三维渲染、三维配准和三维交互。

其中三维渲染是用来呈现最后虚实结合的效果，也就是需要渲染引擎在真实场景的基础上叠加虚拟物体。

三维交互实现人与AR系统的交互，告知系统要“增强”内容，比如下图的AR电梯维修辅助系统的例子，人通过手势虚拟点击菜单，系统将会把说明书展示出来，也就是说展示或者“增强”什么内容是通过人与AR系统的交互来确定的。

而三维配准实现虚实的统一定位，这是产生真实感的关键，也是链接虚实的关键。因为三维渲染的虚拟物体的位置需要利用三维配准的结果，在不同的视角都要有不变性，才会产生与环境融为一体的强烈真实感。而SLAM技术就能够恢复相机与周围环境的三维空间位姿关系，是实现三维配准的基础技术，对于AR来讲，SLAM技术不是“最好能拥有”而是“必须拥有”。

3. 视觉 SLAM 系统关键组成

现代流行的视觉SLAM系统大概可以分为前端和后端，如下图所示。前端完成数据关联，相当于VO（视觉里程计），研究帧与帧之间变换关系，主要完成实时的位姿跟踪，对输入的图像进行处理，计算姿态变化，同时也检测并处理闭环，当有IMU信息时，也可以参与融合计算（视觉惯性里程计VIO的做法）；后端主要对前端的输出结果进行优化，利用滤波理论（EKF、PF等）或者优化理论进行树或图的优化，得到最优的位姿估计和地图。

采用滤波器的SLAM，如下图(a)，估计n时刻的相机位姿Tn需要使用地图中所有路标的信息，而且每帧都需要更新这些路标的状态，随着新的路标的不断加入，状态矩阵的规模增长迅速，导致计算和求解耗时越来越严重，因此不适宜长时间大场景的操作；而采用优化算法的SLAM，如下图(b)，通常结合关键帧使用，估计n时刻的相机位姿Tn可以使用整个地图的一个子集，不需要在每幅图像都更新地图数据，因此现代比较成功的实时SLAM系统大都采取优化的方法。

（1）图像信息使用

视觉SLAM方法根据使用图像信息的不同可分为直接法，间接法。

直接法，常见于稠密或半稠密的SLAM中，指的是采用图像上每个像素的信息（亮度值）来估计相机位姿；间接法，常用于稀疏的SLAM中，只使用显著的图像部位（即特征）用于位姿估计的计算。

直接法最基本的原理是亮度一致性约束，由于摄像机可以直接测量光的亮度，那么它的优化目标函数是光度误差（如下图），优化变量可以是两幅图像之间的位姿关系，也可以是特征Patch的位置。

根据直接法使用的像素的不同，可以分为稠密直接法和半稠密直接法。如 DTAM^[1]为稠密直接法，它使用了所有的像素；LSD-SLAM^[2]和 DSO^[3]为半稠密直接法，它使用了梯度明显的像素；SVO^[4]也为半稠密直接法，它使用了FAST 特征点周围邻域的像素。直接方法较多的使用了图像上像素的信息，在纹理较差的部分比间接法更鲁棒。但当场景中的光照变化后，直接法容易失效，亮度一致性约束要求两幅图像之间的光度误差尽可能地小。

间接法使用图像中的特征（点或者线）进行匹配，然后根据匹配关系求解（如下图），它的优化目标函数是特征的重投影误差，优化的变量一般为相对位姿。间接法选取的特征一般要求比较显著，对视角和光照变化具有不变性，对模糊和噪声有一定的弹性，这需要在计算速度和特征质量上取得平衡。计算机视觉领域研究了很多不同的特征提取和特征描述，它们对旋转、尺度不变，和计算速度的性能都不一样。选择合适的特征依赖于平台的计算能力，视觉SLAM 算法运行的环境，还有图像的帧率。可选的角点提取器如 Harris 角点（Harris and Stephens, 1988）、Shi-Tomasi 角点（Shi and Tomasi, 1994），FAST 角点（（Mair et al, 2010）等，特征描述包括但不限于BRIEF，BRISK，SURF，SIFT，FREAK，ORB 和像素级别局部区块特征等。

使用间接法的 SLAM 系统一般都是稀疏的，因为它们只使用了图像的很少一部分像素的信息。 PTAM^[5]、ORBSLAM^[6]、VINS^[7]都属于间接法的 SLAM 系统。

（2）数据关联

数据关联就是在不同图像之间建立对应关系，也就是把在多个视角看到的同样的图像部分关联起来，这样才能为后续恢复三维结构做好基础。

特征对应主要有三类：2D-2D，3D-2D和3D-3D 。

2D-2D 的对应通常用于 SLAM 系统初始化的时机，这时没有地图，也没有两幅图像之间的相机变换，只能使用 2D-2D 的数据关联。为了减少计算时间，避免错误数据关联的可能性，可以用第一幅图像的特征 2D 位置定义一个搜索窗口在第2幅图像中进行搜索，并采用特征描述之间的相似度进行度量。对于像素描述子的局部区块，通常使用模板（patch）匹配中差值的平方和 (SSD) ，或者为了增加对于光照变化的鲁棒性，使用零均值像素灰度差平方和（ZMSSD），或者零均值归一化交叉相关（ZNCC）；对于高层特征描述子，比如 ORB，SIFT 和SURF，可能会采用 L1 范数（向量中各个元素绝对值之和，就是绝对值相加，又称曼哈顿距离），L2 范数（就是欧几里德距离）或汉明距离，为了加速匹配的搜索过程，可以采用 KD 树或词袋（ BoW ）。

3D-2D 的特征对应常用于 SLAM 系统的运行阶段，前一相机位姿估计和场景 3D 结构已知，需要估计 2D 特征和这些 3D 路标在图像中投影的对应关系，有了这个对应关系，就可以通过 PnP 的方法来求解当前图像和上一帧之间的相对位姿，通常计算 PnP 时为了排除外点的干扰会结合 RANSAC 的方法进行。

3D-3D 的数据对应主要用来估计和校正回环的累积误差，计算能使回环对齐的相似变换。在 RGBD 或双目系统中，还可以利用两帧之间的 3D 结构信息进行三维 ICP 配准来计算相对位姿，实现三维结构的对齐。

（3）初始化

单目的 SLAM 系统需要进行初始化，因为单帧图像数据并不能获取深度信息，也不能生成初始的地图。而 RGBD 和双目的 SLAM 系统由于单帧图像数据即可获取深度信息，所以不需要进行初始化操作。单目 SLAM 的初始化，只知道两幅图像之间的关联数据，初始相机位姿和场景结构都是未知的。

早期的 MonoSLAM^[8]，系统初始化利用一个已知尺寸的平面矩形实现，将相机摆放在该矩形前已知距离的地方，利用平面矩形的四个角点计算初始位姿。

后来的 SLAM 系统，包括 PTAM、SVO、ORBSLAM ，都采用如下的流程进行初始化。

PTAM 使用单应矩阵初始化，此时场景应该由 2D 平面组成。PTAM 要求用户手工选择前两个关键帧，而且用户在第一个和第二个关键帧之间，需要与场景平行地执行一个缓慢平滑且相对明显的平移运动。PTAM 从第1个关键帧提取 FAST 特征点，在后来的每一帧图像中，采用 2D-2D 数据关联方法追踪，直到用户插入第2个关键帧。特征匹配采用 ZMSSD ，由于没有考虑图像形变，匹配过程对运动模糊和由于相机旋转比较敏感，因此在初始化过程中对用户的运动状态要求比较严格。为了使匹配错误最小化，特征需要在两帧之间对称搜索，如果两个方向的匹配不一致，特征就会被丢弃。第2个关键帧成功加入之后，则计算两个关键帧之间的单应矩阵H，随后对H进行分解来恢复相机相对位姿。PTAM 初始化非常脆弱，需要技巧去运行，尤其是对于没有经验的用户。另外，当初始化场景不是二维平面，或用户运动状态不恰当的时候，系统退化，容易崩溃。

SVO 也使用单应矩阵进行初始化，但 SVO 不需要用户输入，系统启动时获取第一个关键帧并提取 FAST 特征，然后用图像间的KLT算法跟踪特征，为了避免用户二次输入， SVO 实时检测第一个关键帧和当前图像间的特征点平移量的中值，当这个值达到一定的阈值，算法认为已经获得了足够的视差，开始估计单应矩阵，然后分解单应矩阵并校验相机位姿，得到正确的位姿估计，并三角化对应的内点形成地图点。在第二个图像作为关键帧加入地图管理线程之前，利用捆集调整优化这两个图像帧以及其关联的地图点。与 PTAM 一样， SVO 的初始化同样要求平面场景。

LSD-SLAM^[5]的初始化不需要使用两视图几何，它从第1个视角随机初始化场景的深度，然后通过随后的图像不断对场景深度进行修正。图像中梯度明显的像素点的深度被初始化为随机的分布，并赋值为较大的方差后放入系统。第一个初始化的关键帧和后面的图像配准后，跟踪直接开始。图像不断输入，初始特征点的深度测量用滤波方法优化，直到收敛。这种方法不存在两视图几何的退化问题；但在深度收敛之前需要处理大量图像，需要一个中间跟踪过程，生成的地图也不可靠。

在 ORB-SLAM 中，为了解决上述问题，作者建议并行计算基本矩阵和单应矩阵（用 RANSAC 方法），并评估两种方法的对称传输误差来选择合适的模型。完成之后，就会进行适当的分解，恢复出相机的位姿，并三角化生成初始地图点，最后通过捆集调整优化地图。如果选择的模型导致跟踪质量差，或者图像上的特征匹配较少，初始化就会迅速被系统丢弃，重新进行初始化，这保证了初始化的可靠性。

（4）位姿估计

因为数据关联计算量巨大，对于每个新图像的位姿，如果能够有个位姿先验，那么对于缩小数据关联的范围就会非常有益。所以，建立这么一个先验是大部分 SLAM 系统位姿估计的第一个任务。PTAM，ORB SLAM ，都在平滑的相机运动状态下采用恒定速度运动模型作为当前图像位姿的先验。但是，在相机运动方向上突然改变时，这样的模型就容易失效。LSD-SLAM 和 SVO 都假设在随后的图像上（这种情况下都是用高帧率相机）相机位姿没有明显改变，因此它们给当前图像位姿和前一个跟踪到的图像分配相同的先验信息。

下图是位姿估计的流程，前一幅图像的位姿用于指导数据关联流程，它可以帮助从当前地图中提取可见的子图，从而减少盲目投影整个地图的计算开销；另外，它还可以为当前图像位姿提供先验，这样特征匹配只在很小的区域内进行搜索，而不是搜索整个图像；最后，它还可以作为优化相机位姿的迭代初值。

（5）地图构建

不同的 SLAM 系统采用的地图表示形式不同，对于直接法的 SLAM 系统，由于恢复所有像素或者像素块的三维信息，它们生成地图为稠密或者半稠密的地图；而对于间接法的 SLAM 系统，它们仅恢复特征点的三维信息，生成的地图为稀疏的地图。无论是稠密、半稠密还是稀疏的地图，都可以看做三维的点云，虽然点云可以存储地图点的位置、特征和法线等，但是它们却不能反映相机位姿之间的关联，所以在 SLAM 系统中引入了位姿图（ Pose Graph ），如 LSD-SLAM、ORB-SLAM 。为了构建位姿图，SLAM 系统会从图像帧中挑选一些帧作为关键帧，这些关键帧即为真实场景在不同位姿处的快照。关键帧包含了位姿信息和与地图点云的观测关系，这些关键帧构成了位姿图顶点，它们之间的连接构成了位姿图的边，两个关键帧之间共视的地图点的个数就是这条边的权值。

下图是地图构建的一般流程。可以看到地图构建需要处理两个方面的工作：新的地图元素的加入和已有地图数据的维护。

（6）重定位

重定位解决 SLAM 系统在遭遇突然的剧烈运动或者无特征区域等情况时，跟踪丢失后重新找回的问题。如果不能有效的重定位， SLAM 系统前面建立的地图就不能再利用，系统就会失败。

PTAM 在检测到跟踪失败后，会将后续每一帧的缩略图 SBI（Small Blurry Image）与所有关键帧的 SBI 进行比较，如果与其灰度的差异小于一定的阈值，那么通过 ESM 方法估计其相对旋转，然后将地图点投影到当前帧寻找匹配，如果匹配足够，则计算精确位姿，重定位成功。这种方法需要丢失时的位姿与已有关键帧的位姿比较相近才可以成功，在有大的平移时会失败。

SVO 简单将图像帧与丢失前最后一次有效位姿附近最近的关键帧进行匹配，如果匹配成功则重定位成功。这种重定位策略对于光照变化和大的平移都很敏感，很容易失败。

LSD-SLAM 随机从位姿图中选择一个具有两个以上相邻关键帧的关键帧，并试图将当前帧与它进行匹配，如果外点/内点比率较大，那么丢弃该关键帧，重新随机选择；否则接着测试所有与它相邻的关键帧，如果相邻的关键帧中内点/外点比率较大的关键帧数多于外点/内点比率较大的关键帧数，或者存在多于五个的内点/外点比率较大的关键帧，那么选择内点/外点比率最大的关键帧进行跟踪，重定位成功。

ORB-SLAM 的重定位会调用它的位置识别模块，该模块基于 BoW 进行，它计算当前图像的 BoW 向量，与地图中所有关键帧的 BoW 向量比较，找出所有匹配得分高于75%最好低分的关键帧作为候选。对这些候选进行匹配和 RANSAC PnP 计算，如果内点满足阈值条件，就认为重定位成功。

（7）回环检测

回环检测对于消除 SLAM 系统长时间运行的漂移有非常重要的作用，如果能够识别到过的地方，那么回环的两端就可以对齐，全局的尺度一致性就能够保证。

LSD-SLAM 的做法是每当加入一个新关键帧时，搜索与空间最近的10个关键帧的匹配，一旦检测到闭环，则对位姿图进行优化，计算相似变换对齐回环两端，并将回环误差分散到到各个关键帧中。

ORB-SLAM 回环检测使用重定位时同样的基于 BoW 的地点识别模块，它可以为新加入的关键帧从已有关键帧数据库中高效快速的提取回环候选。为了确信回环和排除干扰，它引入连续一致性约束。确信回环之后，同样计算一个相似变换对齐回环两端。然后对关键帧和地图点进行调整，融合重复的地图点，并且执行一个基于位姿图的全局优化。

4. 视觉 SLAM 在 AR 中的应用

虽然 SLAM 技术是 AR 的必需，但不同的 AR 应用对 SLAM 技术的需求程度是不同的：

比如扫描电影海报、特定图案展现 AR 效果，那么只需要跟踪给定的图片就好了，那么 marker-based tracking 就能够满足基本的 AR 效果；如果是自然场景的 AR 应用，那么就需要完整的 SLAM 系统来定位和建图，对用户进行六个自由度的位姿跟踪，但这个地图只是为了定位，所以准确快速更新的稀疏地图就可以了。

下面视频为采用稀疏地图的视觉 SLAM AR 效果：

对于手机端的 AR 应用来讲，除了能够利用手机摄像头的信息进行视觉SLAM定位之外，还可以融合手机 IMU 的信息，构成 VIO （视觉惯性里程计）系统或者 VISLAM（视觉惯性 SLAM ）系统。

严格来讲，两者的区别在于 VIO 侧重于计算图像帧之间的相对位姿变化，累加得到绝对的位姿，不要求建立全局的地图以及回环检测；而 VISLAM 系统除了要得到全局的位姿，还需要建立全局的地图，并进行回环检测来修正累积误差。但是现有的视觉和 IMU 融合的系统，常常不加以严格区分，而是融合两种系统的优点，例如香港科技大学的 VINS-Mobile 系统和苹果 ARKit 。因为为了达到好的用户体验，既要保证计算的速度和效率，又要保证定位的精度，所以 VINS-Mobile 没有显式的建立全局的地图，而是保留了闭环的检测，苹果 ARKit 也明确说明了是 VIO 系统，但是加入了 Place recognition 功能，能够识别虚拟物体放置的位置，当出现较大偏移或跟踪丢失时，可以迅速修正或找回。

VIO 系统相对于纯视觉系统的优势有两个方面：（1）它可以更好的适应快速运动的情况，因为 IMU 的更新频率很高，通常能达到 100Hz 以上，而且它的测量不受外界干扰，能够准确反映载体本上的运动特性，可以为视觉系统提供运动先验；（2） IMU 的测量反映了真实世界的尺度特性，通过将 IMU 的测量和视觉测量进行对齐，可以解决单目视觉系统尺度不确定性的问题，重建场景的真实尺度，如下面苹果ARKit虚拟测量米尺的例子：

VIO 系统对于视觉信息和 IMU 的融合方式可以分为滤波方式和优化方式^[9]。

基于滤波的 VIO 系统，IMU 测量得到的三轴加速度和角速度，可用于计算 3D 刚体运动的动力学模型或先验分布，可在预测步骤中用来进行运动预测，但 IMU 数据中存在偏差和噪声，预测步骤的预测结果会随着时间的增加而变得越来越差，视觉传感器的测量恰好能够提供关键信息以限制误差的增加，可用作测量模型或似然分布，并用于在更新步骤中更新预测。

基于优化的 VIO 系统主要依赖于视觉测量和 IMU 测量的对准，建立两者的测量误差方程，并求取使其误差最小的最优位姿。为了保证优化的实时进行，通常维护一个优化窗口，仅对最近一段时间内的视觉测量和 IMU 测量进行优化。

5. AR 中 SLAM 技术发展趋势

（1）基于模型的 SLAM 跟踪

很多时候，AR 跟踪的目标纹理不是很丰富，采用特征点的方式进行跟踪效果不佳，但很多时候物体的轮廓具有各向异性，如果结合物体的轮廓线进行跟踪，那么会提升跟踪的精度和稳定性，因此点线结合的 SLAM 是 AR 的一个发展方向。

（2）SLAM 和 Marker 混合 AR

目前的 AR 应用要么是 Marker Based AR ，要么是 SLAM AR ，较少考虑在一般环境中呈现 AR 效果的同时，并且在特定 Marker 上呈现 AR 效果的需求，这样做的挑战在于 SLAM 系统实时定位的同时，还需要实时识别动态Marker，并排除动态Marker 对于 SLAM 系统的干扰，做到“动静结合，相机、场景、Marker 三位一体”。

（3）多人协作 AR

一个典型的场景需求就是多人 AR 游戏，目前的多人 AR 游戏一般需要专用的设备（如头盔、眼镜等）和专用的动作捕捉系统，不利于大众普及；而移动端的 AR 应用还停留在单机 AR 阶段，未来将向移动端多人协作 AR 发展。基于一般场景的协同 SLAM 技术是其基础支撑，为多人 AR 提供统一的场景和定位。

（4）虚实物体的实时遮挡处理

虽然目前的 SLAM 技术能够实现虚拟物体和真实场景的统一定位和融合，但是还没有有效处理虚实物体的遮挡关系，目前几乎所有的 AR 引擎都是把虚拟物体叠加到真实场景之上（即使苹果 ARKit ，高通 Vuforia 也是如此），但如果要实现更加真实沉浸感，那么虚实物体的实时遮挡处理必不可少。这就需要视觉 SLAM 系统不但要完成定位和建图，还需要对环境的几何结构进行实时重建（或实时轮廓估计+物体实时分割）。

参考文献：

[1] Newcombe R A, Lovegrove S J, Davison A J. DTAM: dense tracking andmapping in real-time. Proceedings of IEEE International Conference on ComputerVision.2011

[2] Engel J, Schöps T, Cremers D. LSD-SLAM: large-scale direct monocularSLAM. ECCV2014

[3]Jakob Engel and Vladlen Koltun and Daniel Cremers. Direct SparseOdometry.IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE. 2017

[4] Christian Forster, Matia Pizzoli, Davide Scaramuzza, SVO: FastSemi-direct Monocular Visual Odometry,IEEE International Conference on Roboticsand Automation, 2014.

[5] Klein G, Murray D. Parallel tracking and mapping for small ARworkspaces. Proceedings of IEEE and ACM International Symposium on Mixed andAugmented Reality. 2007

[6] Mur-Artal R, Montiel J M M, Tardos J D. ORB-SLAM: a versatile andaccurate monocular SLAM system. IEEE Transactions on Robotics, 2015, 31(5):1147-1163

[7]Peiliang Li , Tong Qin , Botao Hu , Fengyuan Zhu and ShaojieShen.Monocular Visual-Inertial State Estimation for Mobile AugmentedReality.ISMAR2017

[8]AJDavison, ID Reid,ND Molton. MonoSLAM:Real-time single camera SLAM. IEEETransactions on Pattern Analysis and Machine Intelligence , June 2007.

[9]J Gui, D Gu, S Wang, H Hu.A review of visual inertial odometry fromfiltering and optimisation perspectives. Advanced Robotics, 2015