2D景观转3D风景大片，无惧复杂光线与遮挡，人类离「躺着旅行」的梦想又近了一步

会员服务 ·

2D景观转3D风景大片，无惧复杂光线与遮挡，人类离「躺着旅行」的梦想又近了一步

2020 年 8 月 8 日 机器之心

机器之心报道

编辑：张倩、小舟、蛋酱

万物皆可转 3D。

上班的时候想旅行，休假的时候想躺着，这是大多数年轻人的状态。如果能够躺在床上旅行，岂不美哉？

在古代中国也有「卧游」的典故，凡所游履，皆图之于室，可惜当时的技术条件跟不上，只能欣赏画卷上的美景。

面对新冠疫情的蔓延，人们不得不限制外出，取消各类出行计划，「卧游」的需求也变得更加急切。当然，这一需求可以通过 VR、AR 技术来满足，但前提是，你要有足够逼真的 3D 图像才能让人有身临其境的感觉。

前段时间，加州大学伯克利分校、谷歌的研究者开源了一款效果不错的 2D 图像转 3D 模型——NeRF，可以利用少数几张静态图像生成多视角的逼真 3D 图像。

NeRF 模型 demo。论文及项目地址：https://www.matthewtancik.com/nerf

但这一模型也有缺陷：如果环境中出现了明显的光线变化或人、物移动造成的遮挡，模型的性能会大打折扣。对于「卧游」这种需要呈现户外景点的场景来说，NeRF 的适用范围可能非常有限。

谷歌的团队也看到了这种缺陷，并在最近的一项研究中推出了 NeRF 模型的改进版——NeRF in the Wild（NeRF-W），使其更加适用于充满光线变化、遮挡的户外环境。

目前，研究者已将 NeRF-W 应用于几个具有挑战性的自然文化地标照片集，这些生成的效果图在各项指标上均实现了新的 SOTA。

NeRF-W 捕捉了低维潜在嵌入空间中的光线和光度后处理。在两个嵌入之间进行插值，可以平滑地捕获外观的变化，而不影响 3D 几何形状。

外观嵌入插值。

该模型将光线从基础 3D 场景几何中分离出来，即使光线发生变化，3D 场景几何仍可保持一致：

几何一致性。

研究者对 NeRF-W 在合成设置中的个体增强进行了详细的控制变量研究，验证了每一次增强都会产生预期效果。在质量控制设置类似的前提下，NeRF-W 在外观变化和瞬时遮挡物挑战中实现的质量提升远远超过 NeRF。

勃兰登堡门。

圣心大教堂。

特雷维喷泉。

NeRF-W 改进了什么？

利用一组稀疏的捕获图像合成场景的新视图是计算机视觉领域长期存在的挑战，也是许多 AR 和 VR 应用的基础。

传统技术已使用「structure-from-motion」或基于图像的渲染解决了这个问题。近来，由于神经渲染技术的出现，该领域又取得了重大的进展。

加州大学伯克利分校、谷歌等机构提出的神经辐射场（NeRF）方法在神经网络的权重范围内，隐式建模了辐射场和场景的密度。然后用直接体积渲染合成新视图，从而在一系列具有挑战性的场景中展示出前所未有的保真度。但是，这仅证明了 NeRF 在受控环境下运行良好：场景是在较短的时间范围内捕获，在此期间，场景中的光照条件保持恒定，而且所有内容都是静态的。

NeRF 的局限性在于，当场景内出现移动的物体或光照发生变化时，模型的性能会大大降低。这些缺陷限制了 NeRF 在自然环境中的应用。因为在自然环境中，图像的拍摄时间可能间隔数小时、数天甚至数年，而且场景中可能包含行人和汽车。

NeRF 假设世界在几何、物质和光度学上是静态的，即世界的密度和辐射（radiance）都是恒定的。因此，NeRF 要求在相同位置和方向拍摄的任何两张照片必须具有相同的像素强度。

但现实世界中的许多数据集都不符合该假设。例如，在著名旅游地标的大规模互联网照片集中，两位摄影师可能站在相同的位置并拍摄相同的地标，但是在这两张照片的时间间隔里，世界可能已经发生了巨大的变化：车、人会动，天气、气候也会变…… 即使在同一时间同一位置拍摄的两张照片也可能存在很大差异：曝光、色彩校正和色调映射可能都有所不同。

本文实验部分表明：将 NeRF 直接应用于室外照片集会导致严重的重影、过度平滑和其它瑕疵。

为了能够处理这些复杂的场景，来自谷歌的研究者提出了「NeRF-W」。

论文链接： https://arxiv.org/pdf/2008.02268.pdf

首先，研究者对每张图片的外观变化进行建模，包括曝光、光线、天气，并使用一个学到的低维潜在空间进行后处理。

根据 GLO（Generative Latent Optimization）模型的框架，研究者优化了每个输入图像的外观嵌入，从而让 NeRF-W 具备通过学习整个照片集的共享外观表征来解释图像之间光度与环境变化的灵活性。学习的外观潜在空间提供了对于输出渲染外观的控制，如下图 1 所示。

然后，研究者将场景建模为共享元素和基于图像元素的组合，从而能够在无监督的条件下将场景内容分解为静态组件和瞬态组件。这种分解实现了地标 3D 视图的高保真合成，而不会产生由输入图像中动态视觉内容所产生的伪影。本文所提出的方法将瞬态元素建模为一个二级体积辐射场（secondary volumetric radiance field）和一个数据相关的不确定场（datadependent uncertainty field），后者能够捕获变化的观测噪声，进一步减少瞬态物体对静态场景表征的影响。

具体方法

与 NeRF 类似，研究者从非结构化照片集

中学得了一种体积密度表征 F_θ，该照片集中的相机参数可用或已估计。从本质上讲，NeRF 假定其输入视图一致。但是，如图 2 所示，互联网照片并不遵循如此严格的假设。有两个违背这一假设的现象： 1）光度变化，2）瞬时目标。

研究者提出了两个模型组件来解决这些问题。下图 3 展示了 NeRF-W 的模型架构。

潜在外观建模

为了使 NeRF 适应变化的光线和光度后处理，研究者在公式 (1) 中引入对期望颜色的图像索引 i 的依赖：

T(t)如此前定义。

研究者采用了 GLO 模型，其中每个图像 I_i 被相应分配了一个长度为 n^(a)的实值外观嵌入向量

。在 NeRF 中，研究者用数值积分近似方程（8），用基于图像的辐射

代替了基于图像的辐射 c(t)。

嵌入

1 在与 NeRF 参数θ一起训练的过程中进行了优化。

图 8：注意人物（左）和光线（右）没有出现在渲染图中。外观嵌入修改了渲染的颜色和光线，而不影响 3D 几何。

瞬时目标

研究者通过两种方式来帮助 NeRF 应对瞬时目标。

首先，他们利用瞬时目标的一个显式表征增强了 NeRF 的体积辐射场，这使得 NeRF-W 可以重建包含遮挡的图像，同时不在静态场景表征中引入瑕疵。

其次，他们没有直接建模观察到的颜色，而是针对该值建立了一个概率分布模型。具体来说，他们将每个像素的颜色建模为各向同性正态分布，并使用与 NeRF 相同的体积渲染方法生成其均值和方差。这使得 NeRF-W 在渲染可能包含遮挡的像素时能够表达不确定性。

这两种方法使得 NeRF-W 可以在没有显式监督的条件下分离静态和瞬时目标。

实验

为了验证 NeRF-W 的效果，研究者设计了两个领域的实验，一个实验用的是网络上找到的旅游目的地地标照片，另一个用的是合成场景的渲染图像。

旅游照数据集

下图 7 显示了基线模型和 NeRF-W 在旅游照数据集上得到的定性评估结果。NeRF-W 能够同时建模外观变化、消除瞬间遮挡并捕捉一致的 3D 场景几何。

下表 1 展示了定量对比结果。从中可以看出，NeRF-W 在所有数据集的所有指标上都超越了基线模型。在 PSNR（峰值信噪比）指标上，NeRF-W 比之前的 SOTA 模型 NRW 平均高出 5.7dB。

乐高数据集

第二项评估是在合成的乐高数据集上完成的。研究者引入了两类扰动（着色和遮挡）来模拟室外环境可能带来的挑战：光照变化和瞬时目标。

如下表 2 所示，在原始数据集上，所有模型的表现几乎相同。NeRF 无法处理存在不同程度扰动的数据集。NeRF-U 处理颜色比较失败，但在遮挡的处理上优于 NeRF。NeRF-A 擅长颜色，但遮挡处理不好。只有 NeRF-W 可以两者兼顾（如下图 10 所示）。

最后，关于 NeRF-W 的更多研究信息可以观看该视频：

Amazon SageMaker 是一项完全托管的服务，可以帮助开发人员和数据科学家快速构建、训练和部署机器学习模型。SageMaker完全消除了机器学习过程中每个步骤的繁重工作，让开发高质量模型变得更加轻松。

现在，企业开发者可以免费领取1000元服务抵扣券，轻松上手Amazon SageMaker，快速体验5个人工智能应用实例。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

NeRF

关注 7

【2020新书】3D建模初学者指南，190页pdf

专知会员服务

33+阅读 · 2020年9月15日

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

【天津大学】风格线条画生成技术综述

专知会员服务

34+阅读 · 2020年4月26日

【UC San Diego】最新「三维深度学习(3D DL):过去与未来」教程，156页ppt

专知会员服务

49+阅读 · 2020年4月20日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

【慕尼黑工业大学-Matthias Niessner】人工智能驱动的视频合成及其意义，104页ppt

专知会员服务

23+阅读 · 2020年3月15日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

武汉疾控中心编撰《新型冠状病毒肺炎预防手册》，108页ppt学习掌握科学知识守护你我(附下载)

专知会员服务

37+阅读 · 2020年1月23日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知

8+阅读 · 2020年4月4日

ICCV 2019 | 从多视角RGB图像生成三维网格模型Pixel2Mesh++

PaperWeekly

4+阅读 · 2019年11月8日

用AI实现动画角色的姿势迁移，Adobe等提出新型「木偶动画」

机器学习算法与Python学习

7+阅读 · 2019年10月13日

3D重建：硬派几何求解vs深度学习打天下？

机器之心

5+阅读 · 2019年7月8日

业界 | 单个运动摄像头估计运动物体深度，谷歌挑战新难题

AI科技评论

3+阅读 · 2019年6月4日

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

人工智能前沿讲习班

19+阅读 · 2019年5月4日

一张贴纸欺骗AI，对抗性补丁让人类隐身，监控摄像危险了！

新智元

5+阅读 · 2019年4月24日

倾斜摄影用真三维与电影完美相结合

无人机

9+阅读 · 2018年12月4日

DensePose：将2D图像像素映射到人体3D表面以实现高效姿态估计

论智

7+阅读 · 2018年2月5日

解决3D重建难题，伯克利大学根据单张平面彩图重建高精度3D结构

新智元

4+阅读 · 2017年8月25日

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

Monocular Object and Plane SLAM in Structured Environments

Arxiv

12+阅读 · 2018年9月10日

Video-to-Video Synthesis

Arxiv

9+阅读 · 2018年8月20日

A Gauss-Newton Approach to Real-Time Monocular Multiple Object Tracking

Arxiv

4+阅读 · 2018年7月5日

Measurement-wise Occlusion in Multi-object Tracking

Arxiv

3+阅读 · 2018年5月21日

Mono-Camera 3D Multi-Object Tracking Using Deep Learning Detections and PMBM Filtering

Arxiv

10+阅读 · 2018年2月27日

Identifying Corresponding Patches in SAR and Optical Images with a Pseudo-Siamese CNN

Arxiv

9+阅读 · 2018年1月25日

3D Reconstruction in Canonical Co-ordinate Space from Arbitrarily Oriented 2D Images

Arxiv

4+阅读 · 2018年1月23日

PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space

Arxiv

4+阅读 · 2017年6月7日

VIP会员