【顶会100秒】【灾难管家】用于模拟灾难场景的大型虚拟数据集

标题:DISC: A Large-scale Virtual Dataset for Simulating Disaster Scenarios

作者:Hae-Gon Jeon, Sunghoon Im, Byeong-Uk Lee, Dong-Geol Choi, Martial Hebert and In So Kweon

来源:机器人领域顶级会议-The 2019 IEEE International Conference on Intelligent Robots and Systems (IROS 2019)

编译:曾莹莹,李灏城,李壮,刘博艺

01

摘要

在本文中,我们提出了第一个大规模的综合数据集,用于灾难场景下的视觉感知,并使用参考基线分析了用于多种计算机视觉任务的最新方法。我们在现实虚拟世界中的十五个不同位置模拟了灾难前后的场景,例如火灾和建筑物倒塌。该数据集包含超过300K的高分辨率立体图像对,所有这些图像对都带有地面真实数据进行注释,以进行语义分割,深度,光流,表面法线估计和相机姿态估计。为了创建逼真的灾难现场,我们使用基于物理的图形工具通过3D模型手动增强了效果。我们使用我们的数据集来训练生成最先进的方法,并评估这些方法在多大程度上能够识别灾难情况并在虚拟场景以及真实世界的图像上产生可靠的结果。然后,将从每个任务获得的结果用作拟议的视觉里程计网络的输入,以生成火灾中建筑物的3D地图。最后,我们讨论了未来研究的挑战。

02

核心内容

图1. DISC的示例:我们为立体图像序列提供相应的地面数据,包括灾难前后的深度图,表面法线,光流,语义标签和相机姿态。
图2.虚拟3D模型,用于生成具有各种场景背景,光照条件和材质的DISC。 (室内)家具店,客厅,办公室,警察局,住宅,仓库,学校和旧城堡。 (室外)城市景观1,城市景观2,郊区和公园(地下)地铁站,隧道和地下通道。
图3.模拟火灾场景的示例。(a)烟灰图像样本(b)烟灰补丁组成(c)增加光源的灾害影响
图4.模拟倒塌场景的示例。(a)坍塌之前(b)破裂3D模型(c)散布小碎片
图5.在视频编辑程序中,在Unity中比较标记流体,例如火焰和烟雾。
图6.提供的火灾案例标签示例。 深灰色:烟(软标签),浅黄色:火(软标签),灰色:烟,红色:火,黄色:家具,橙色:墙,紫色:天花板。 软标签表示火焰和烟雾的高度详细的保留透明度的细分
表一 16个类的语义分割 DISC上的微调(FT) (措施:平均值)
图7.语义分割基准的示例
图8.表面法线估计
表二 单幅图像的表面法线。 角度误差的平均值和中位数(越低越好),误差小于11.25的像素的百分比(越高越好)。
表三 立体声比赛。 平均差像素率,视差误差比5像素(BPR5)和7像素(BPR7)小,而烟雾场景的均方根误差(低者)。
图9. DISC上的立体声匹配结果。 基准:PSMNet
图10.现实场景中的立体匹配结果
表四 光学流量。 烟雾场景中的平均BPR和EPE(越低越好)。
图11. DISC上的光流结果。 基准:PWCNet
图12. PWCNet的结果以及真实场景中参考图像和扭曲图像之间的内插误差。
表五 相机重新定位;平均位置误差和角度误差(越小越好)。
图13.相机重新定位会导致崩溃。
图14.拟议的视觉里程计网络概述。
表六 反对LVon ET的拟议网络性能的比较,WE报告平均位置误差和角度误差(越小越好)。

03

主要实验情况:

图15.着火的建筑物中的3D地图重建(学校),着火点标记为红色。

04

视频

https://www.zhihu.com/video/1216780061451538432


Abstract

In this paper, we present the first large-scale synthetic dataset for visual perception in disaster scenarios, and analyze state-of-the-art methods for multiple computer vision tasks with reference baselines. We simulated before and after disaster scenarios such as fire and building collapse for fifteen different locations in realistic virtual worlds. The dataset consists of more than 300K high-resolution stereo image pairs, all annotated with ground-truth data for semantic segmentation, depth, optical flow, surface normal estimation and camera pose estimation. To create realistic disaster scenes, we manually augmented the effects with 3D models using physical-based graphics tools. We use our dataset to train state-of-the-art methods and evaluate how well these methods can recognize the disaster situations and produce reliable results on virtual scenes as well as real-world images. The results obtained from each task are then used as inputs to the proposed visual odometry network for generating 3D maps of buildings on fire. Finally, we discuss challenges for future research.


发布于 2020-02-28 19:52