SIGGRAPH Asia 2022 | 港中文MMLab：Marker Correspondence估计框架和应用

会员服务 ·

SIGGRAPH Asia 2022 | 港中文MMLab：Marker Correspondence估计框架和应用

2022 年 10 月 7 日 PaperWeekly

©PaperWeekly 原创 · 作者 | Zhaoyang Huang

单位 | 香港中文大学MMLab

研究方向 | 视觉关联性学习

基于 Marker 的 AR 是目前的主流 AR 效果之一，但是目前基于特征匹配与平面拟合的方法处理不了 marker 形变的情况，同时对运动模糊、极端相机视角变化、光照变化等现实环境中常见因素不够鲁棒。

本文提出一套框架 NeuralMarker：通过训练一个深度神经网络估计 marker 与拍摄图像的稠密对应关系来处理这些问题。实验显示我们的方法显著优于现有方法，并能实现一些新的有意思的 AR 效果与视频编辑应用。

论文标题：

NeuralMarker: A Framework for Learning General Marker Correspondence

收录期刊（会议）：

ToG（SIGGRAPH Asia）2022

论文主页：

https://drinkingcoder.github.io/publication/neuralmarker/

如上图（a）所示，给定一张任意 Marker ，以及一张包含该 Marker 的图像，NeuralMarker 的目标是精确的估计与之间的像素级对应关系（Marker Correspondence），这将带来一系列新的有意思的应用。如图（b）所示，可以将一个电视剧或电影中所有片段拍到的某幅画替换成一个植入式广告；如图（c）所示，可以编辑一个视频中的一帧图像并通过 NeuralMarker 将编辑效果扩展到整个视频上，这能大幅的增加视频编辑效率；如图（d）所示，可以实现 Marker AR 效果。

NeuralMarker 对各种现实环境的干扰因素，如光照变化、极端视角变化、Marker 形变等有较强的鲁棒性，这使得我们有更广阔的的应用空间。如下图所示，在暗光条件下也能实现 AR 效果。（a）（b）在与 NIID-Net 结合的情况下可以在暗光条件下进行保真实感的图像编辑，（c）也可以在暗光场景中根据估计的 Marker 位置插入虚拟物体。

如下视频所示，可以逐帧的估计 Marker Correspondence 并将一个视频投影上去。

基于 NeuralMarker，也可以进行快速的视频编辑：挑选其中一帧编辑之后可以使用估计的 Marker Correspondence 自动的将编辑效果扩展到视频的前后帧上。

论文简介

给定一张 Marker，比如一张电影海报，以及一张包含该 Marker 的图像，Marker Correspondence 这一任务目的是估计该 Marker 与图像的稠密对应关系（dense correspondence）。传统方法在 Marker 和图像是分别提取稀疏特征，比如 SIFT，进行匹配，然后拟合一个单应性矩阵，这样可以基于单应性矩阵计算稠密对应关系。

这种方法最大的问题是：1）单应性矩阵假设 Marker 仍是平面没有发生形变；2）稀疏特征只利用了部分图像信息因此不够稳定和精确，比如受重复纹理、光照变化影响较大。本文提出一套框架 NeuralMarker 通过训练一个深度神经网络直接端到端估计 Marker Correspondence。为了评价 Marker Correspondence 估计的质量，本文也提出一个新的 DVL-Markers Benchmark 和对应的评估方式。

算法细节

深度学习方法最重要的两个部分是网络架构和训练数据。NeuralMarker 使用 RAFT 作为 Marker Correspondence 网络架构，受 FlowFormer 启发本文也使用预训练 Twins-SVT 的前两层取代 CNN 作为图像特征提取器。但是针对任务的训练数据很难获得，因为 Marker Correspondence 的真值很难通过其他设备获取，而让人工来标注又会非常昂贵。

受光流任务普遍使用合成的训练数据集的启发（如 FlyingChairs 和 FlyingThings），本文也提出使用合成数据集 FlyingMarkers 来训练。光流估计一般只考虑视频中不发生明显光照变化的相邻帧，但是 Marker 可能在光照变化剧烈的情况下拍摄，想要合成比较真实的光照变化又比较困难。使用合成数据带来的另一个问题是它与真实数据存在偏差（bias），因此在真实场景中使用这种模型性能并不好。

我们观察到 SfM（Structure-from-Motion）能够将不同光照情况下的真实图像注册到一起并计算出对应的相机位姿，为此本文进一步提出在 SfM 数据集上使用对称极限距离损失（Symmetric Epipolar Distance Loss）训练，该损失只依赖于 SfM 提供的相机位姿，但是又使得光照变化的真实图像能用来训练网络。

总的来说，与 RAFT 一致，NeuralMarker 先使用一个图像特征编码器同时提取 Marker 与图像特征，构建一个 4D Cost Volume，然后使用一个 RNN 根据 Cost Volume 迭代的优化 Correspondence。合成数据集 FlyingMarkers 通过模拟各式各样的 Marker 形变使得 RNN 能得到充分训练，同时真实数据集能使得图像特征编码器对光照变化具有鲁棒性并有效避免合成数据偏差。

2.1 在合成数据集FlyingMarkers上监督训练

如上图所示，给定任意两张图像，本文将其中一张图像视为 Marker ，对其使用参数进行形变后放置在另一张图像中。由于形变参数已知，那么 Marker 上每个像素在另一张图像的位置可以一一计算出来作为真值监督网络输出。本文随机使用三种参数模型：仿射变换、单应性变换、和薄板样条曲线（TPS）。

2.2 在SfM建成的真实数据集上弱监督训练

如上图所示，SfM 数据集能将一个场景中不同光照下拍摄的图像的相机位姿恢复。根据多视图几何，给定两张图像相对相机位姿的情况下，一张图像上的像素在另一张图像上的对应位置必然会落在一条线上，这条线被称为极线（Epipolar Line）。当网络为其中一个像素估计的对应点为时，到的距离被称为极线距离（Epipolar Distance）。极限距离可以由从相机位姿导出的基础矩阵（Fundamental Matrix）计算得出。因为几何约束是对称的，本文进一步使用对称极限距离损失（Symmetric Epipolar Distance Loss）在 SfM 收集的真实数据集上训练。

2.3 DVL-Markers Benchmark

量化评估 Marker Correspondence 面临与准备真实图像训练数据时同样的问题：无法获得稠密的真值。本文因此提出将原 Marker 通过估计的 Marker Correspondence 投影到目标图像上，然后计算投影区域与测试图像的一致性 SSIM 与 PSNR。

一致性越好说明 Marker Correspondence 的质量越高。对于光照变化剧烈的测试图像，本文用同样的相机位姿拍摄一张光照良好的图像并使用该图像计算一致性，如下图所示：

DVL-Markers 包含三个子集，针对三种常见的扰动因素：形变（Deformation）、视角变化（Viewpoint）、和光照变化（Lighting）进行测试。测试数据总共有 10 张测试 Marker，并为每个 Marker 在每个条件下拍摄 10 张测试图像，因此 DVL-Markers 总共包含 300 张测试图像。

实验对比

本文选了四种方法进行对比，其中两种为稠密对应关系估计（Dense Correspondence Estimation）的方法 RANSAC-Flow 和 PDC-Net，两种为使用稀疏特征的单应性矩阵估计，包括 SIFT 特征（SIFT+H）和 SuperPoint 特征与SuperGlue 匹配（SP+SG+H）。SIFT 是传统手工特征的最佳方法，Superpoint+SuperGlue 是基于深度学习的最佳特征和特征匹配方法之一。

3.1 定性比较

如下图和视频所示，NeuralMarker 对三个扰动因素都有较强的鲁棒性。PDC-Net 和 RANSAC-Flow 是稠密对应关系估计方法，容易在不相关区域估计出 Correspondence。SIFT+H 是一种传统方法，对视角变化和光照变化都不鲁邦，同时无法处理形变因为单应性矩阵本质上假设估计的对应关系是一个平面。

视频额外引入一种常见的扰动因素运动模糊（Motion Blur），NeuralMarker 对这种扰动也有更好的鲁棒性。

3.2 定量比较

本文使用 SSIM 与 PSNR 的均值/中位数单应性矩阵估计要求至少有四个对应点，否则无法估计出该矩阵，因此 SIFT+H 与 SP+SG+H 在太具挑战的条件下无法出解（Failed）。SIFT 特征在形变和视角变化时比 SP+SG 更鲁棒，但是对光照变化更脆弱。RANSAC-Flow 与 PDC-Net 总能出解，但是对这几个扰动因素仍然比较脆弱。NeuralMarker 在所有方法中都展现出了卓越的精度和鲁棒性，尽管 RANSAC-Flow 对光照变化也比较鲁棒但是仍然比 NeuralMarker 要差。

DVL-Markers 根据三种因素的难度进一步划分子集，形变、视角变化、和光照变化分别被划分为 5、4 和 10 种难度（细节请查看原文）。如下图所示 NeuralMarker 在所有难度登记上都展现出更好的精度，尤其是在高难度区域展现出相对更好的性能。

3.3 方法缺陷

NeuralMarker 仍然存在很多缺陷并值得进一步提升。如下图第一行所示，对于过于极端的运动模糊，NeuralMarker 仍然无法处理；如第二行所示，由于 NeuralMarker 没有对估计遮挡关系，直接使用估计的 Marker Correspondence 编辑图像会导致遮挡的物体被覆盖。