单目三维目标检测(Monocular 3D Object Detection, Mono3D)是一项基础的计算机视觉任务,其目标是从单幅图像中估计物体的类别、三维位置、尺寸以及朝向。其应用领域包括自动驾驶、增强现实和机器人,这些场景对准确的三维环境理解有着至关重要的依赖。本文探讨了Mono3D模型在多样化场景下的泛化挑战,包括遮挡、数据集差异、目标尺度以及相机参数变化等问题。 为增强遮挡鲁棒性,我们提出了一种数学上可微分的非极大值抑制方法(GrooMeD-NMS)。为提升对新数据集的泛化能力,我们探索了深度等变(Depth Equivariant, DEVIANT)主干网络。针对大目标检测问题,我们证明其不仅仅是数据不平衡或感受野不足的问题,还涉及噪声敏感性。为此,我们提出了一种基于鸟瞰图分割并结合dice损失的方案(SeaBird)。最后,我们从数学角度分析了Mono3D模型在未见过的相机高度下的外推能力,并改进了其在此类分布外设置下的泛化表现。

成为VIP会员查看完整内容
0

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【剑桥博士论文】神经-符号事实验证
专知会员服务
17+阅读 · 5月18日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
46+阅读 · 4月8日
分布外OOD检测的最新进展:问题与方法
专知会员服务
22+阅读 · 2024年9月23日
【ETHZ博士论文】视频通用目标跟踪,175页pdf
专知会员服务
32+阅读 · 2023年10月24日
【伯克利博士论文】机器人机械搜索的操作与感知策略
专知会员服务
16+阅读 · 2022年6月4日
【博士论文】基于深度学习的单目场景深度估计方法研究
专知会员服务
96+阅读 · 2021年2月6日
【MIT博士论文】数据高效强化学习,176页pdf
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
480+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
【剑桥博士论文】神经-符号事实验证
专知会员服务
17+阅读 · 5月18日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
46+阅读 · 4月8日
分布外OOD检测的最新进展:问题与方法
专知会员服务
22+阅读 · 2024年9月23日
【ETHZ博士论文】视频通用目标跟踪,175页pdf
专知会员服务
32+阅读 · 2023年10月24日
【伯克利博士论文】机器人机械搜索的操作与感知策略
专知会员服务
16+阅读 · 2022年6月4日
【博士论文】基于深度学习的单目场景深度估计方法研究
专知会员服务
96+阅读 · 2021年2月6日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员