Recovering the 3D representation of an object from single-view or multi-view RGB images by deep neural networks has attracted increasing attention in the past few years. Several mainstream works (e.g., 3D-R2N2) use recurrent neural networks (RNNs) to fuse multiple feature maps extracted from input images sequentially. However, when given the same set of input images with different orders, RNN-based approaches are unable to produce consistent reconstruction results. Moreover, due to long-term memory loss, RNNs cannot fully exploit input images to refine reconstruction results. To solve these problems, we propose a novel framework for single-view and multi-view 3D reconstruction, named Pix2Vox. By using a well-designed encoder-decoder, it generates a coarse 3D volume from each input image. Then, a context-aware fusion module is introduced to adaptively select high-quality reconstructions for each part (e.g., table legs) from different coarse 3D volumes to obtain a fused 3D volume. Finally, a refiner further refines the fused 3D volume to generate the final output. Experimental results on the ShapeNet and Pascal 3D+ benchmarks indicate that the proposed Pix2Vox outperforms state-of-the-arts by a large margin. Furthermore, the proposed method is 24 times faster than 3D-R2N2 in terms of backward inference time. The experiments on ShapeNet unseen 3D categories have shown the superior generalization abilities of our method.


翻译:从单视图或多视图 RGB 图像中恢复一个对象的 3D 表示式, 由深神经网络从单视图或多视图 RGB 图像中恢复为 3D 表示式, 过去几年来引起了越来越多的关注。 一些主流工程( 如 3D- R2N2) 使用常规神经网络( RNN) 将从输入图像中依次提取的多功能地图连接起来。 但是, 如果给同一组带有不同订单的输入图像, 以 RNNN 为基础的方法无法产生一致的重建结果。 此外, 由于长期记忆损失, RNNNN 无法充分利用输入图像来完善重建结果。 为了解决这些问题, 我们建议为单视图和多视图 3D 重建, 我们建议了一个全新的框架框架。 3D 3D 3V 重新定义 使用精心设计的编码- 3D 定义, 生成了每个输入图像图像的直径3D 。 然后, 引入了一个环境认知模块, 为每个部分( 如, 表腿) 每一个部分选择高质量的重建结果, 3D 获得3D 3D 的集 。 最后, 改进了3D 3D 显示的精化 3D 3D 3D 的精细的精度, 显示的精度, 以显示的精度, 的精细的精度, 显示的精度 的精度, 3D 3D 的精度, 的精度将显示的精度, 的精度将显示的精度, 的精度, 的精度, 的精度, 3D 3D 的精度, 的精度, 3D 的精度, 显示为最终的精度。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
(Python)3D人脸处理工具Face3d
AI研习社
7+阅读 · 2019年2月10日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【泡泡一分钟】点云到网格的回归算法实现
泡泡机器人SLAM
8+阅读 · 2018年11月23日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
20+阅读 · 2020年6月8日
3D Face Modeling from Diverse Raw Scan Data
Arxiv
5+阅读 · 2019年2月13日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关VIP内容
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
(Python)3D人脸处理工具Face3d
AI研习社
7+阅读 · 2019年2月10日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【泡泡一分钟】点云到网格的回归算法实现
泡泡机器人SLAM
8+阅读 · 2018年11月23日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员