Recent advances in 3D sensing have created unique challenges for computer vision. One fundamental challenge is finding a good representation for 3D sensor data. Most popular representations (such as PointNet) are proposed in the context of processing truly 3D data (e.g. points sampled from mesh models), ignoring the fact that 3D sensored data such as a LiDAR sweep is in fact 2.5D. We argue that representing 2.5D data as collections of (x, y, z) points fundamentally destroys hidden information about freespace. In this paper, we demonstrate such knowledge can be efficiently recovered through 3D raycasting and readily incorporated into batch-based gradient learning. We describe a simple approach to augmenting voxel-based networks with visibility: we add a voxelized visibility map as an additional input stream. In addition, we show that visibility can be combined with two crucial modifications common to state-of-the-art 3D detectors: synthetic data augmentation of virtual objects and temporal aggregation of LiDAR sweeps over multiple time frames. On the NuScenes 3D detection benchmark, we show that, by adding an additional stream for visibility input, we can significantly improve the overall detection accuracy of a state-of-the-art 3D detector.


翻译:3D遥感的最近进展为计算机视野带来了独特的挑战。 一个根本性的挑战就是找到3D传感器数据的良好代表。 多数受欢迎的代表(如PointNet)都是在处理真正3D数据的背景下提出的(例如从网状模型抽样的点),忽视了3D传感器数据(如LiDAR扫瞄)事实上是2.5D。 我们争辩说,将2.5D数据作为收集(x,y,z)点的收集(x,y,z)点,从根本上摧毁了关于自由空间的隐蔽信息。在本文中,我们证明这种知识可以通过3D射线观测有效恢复,并随时纳入批量基梯度学习中。我们描述了一种简单的方法,用可见度来扩大基于oxel的网络:我们添加一个反毒化可见度地图作为额外的输入流。此外,我们表明,能度可以与最先进的3D探测器(x,即虚拟物体的合成数据增强和LIDAR扫荡时间框架的时空汇总)的两种常见的关键修改相结合。 在 Nuscenes 3D探测基准上,我们表明,通过添加更多的可见度输入流来大大改进整个探测状态。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
3D目标检测进展综述
专知会员服务
186+阅读 · 2020年4月24日
专知会员服务
109+阅读 · 2020年3月12日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
143+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
计算机视觉领域顶会CVPR 2018 接受论文列表
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Arxiv
12+阅读 · 2019年4月9日
Arxiv
10+阅读 · 2019年1月24日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
3+阅读 · 2018年6月14日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
计算机视觉领域顶会CVPR 2018 接受论文列表
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员