This paper focuses on monocular 3D object detection, one of the essential modules in autonomous driving systems. A key challenge is that the depth recovery problem is ill-posed in monocular data. In this work, we first conduct a thorough analysis to reveal how existing methods fail to robustly estimate depth when different geometry shifts occur. In particular, through a series of image-based and instance-based manipulations for current detectors, we illustrate existing detectors are vulnerable in capturing the consistent relationships between depth and both object apparent sizes and positions. To alleviate this issue and improve the robustness of detectors, we convert the aforementioned manipulations into four corresponding 3D-aware data augmentation techniques. At the image-level, we randomly manipulate the camera system, including its focal length, receptive field and location, to generate new training images with geometric shifts. At the instance level, we crop the foreground objects and randomly paste them to other scenes to generate new training instances. All the proposed augmentation techniques share the virtue that geometry relationships in objects are preserved while their geometry is manipulated. In light of the proposed data augmentation methods, not only the instability of depth recovery is effectively alleviated, but also the final 3D detection performance is significantly improved. This leads to superior improvements on the KITTI and nuScenes monocular 3D detection benchmarks with state-of-the-art results.


翻译:本文侧重于单眼 3D 对象探测,这是自主驱动系统的基本模块之一。 关键的挑战之一是深度恢复问题在单眼数据中存在错误。 在这项工作中, 我们首先进行彻底分析, 以揭示当不同几何变化发生时, 现有方法如何无法精确估计深度。 特别是, 通过一系列图像和实例操作, 对当前探测器进行图像和实例操作, 我们说明现有探测器在捕捉深度与对象表面大小和位置之间的一致关系时很脆弱。 为了缓解这一问题并提高探测器的坚固性, 我们将上述操作转换为四种对应的 3D 数据增强技术。 在图像层面, 我们随机操作相机系统, 包括它的焦点长度、 接受场和位置, 以生成具有几何变化的新的培训图像。 在实例层面, 我们为地表对象植入一系列图像, 随机将其粘贴到其他场景, 以产生新的培训实例。 所有拟议增强技术都具有这样的优点: 在对物体进行几何测量时保存几何关系。 根据拟议的数据增强方法, 我们不仅将深度探测结果的不稳定性提高到3级标准, 。

0
下载
关闭预览

相关内容

数据增强在机器学习领域多指采用一些方法(比如数据蒸馏,正负样本均衡等)来提高模型数据集的质量,增强数据。
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
3D目标检测进展综述
专知会员服务
187+阅读 · 2020年4月24日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
语义信息与SLAM有哪些结合点?
计算机视觉life
5+阅读 · 2019年4月23日
人工智能 | 国际会议信息6条
Call4Papers
4+阅读 · 2019年1月4日
【泡泡一分钟】3D物体的特征编码变种
泡泡机器人SLAM
4+阅读 · 2019年1月1日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Arxiv
6+阅读 · 2018年3月19日
VIP会员
相关资讯
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
语义信息与SLAM有哪些结合点?
计算机视觉life
5+阅读 · 2019年4月23日
人工智能 | 国际会议信息6条
Call4Papers
4+阅读 · 2019年1月4日
【泡泡一分钟】3D物体的特征编码变种
泡泡机器人SLAM
4+阅读 · 2019年1月1日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Top
微信扫码咨询专知VIP会员