单目三维目标检测(Monocular 3D Object Detection, Mono3D)是一项基础的计算机视觉任务,其目标是从单幅图像中估计物体的类别、三维位置、尺寸以及朝向。其应用领域包括自动驾驶、增强现实和机器人,这些场景对准确的三维环境理解有着至关重要的依赖。本文探讨了Mono3D模型在多样化场景下的泛化挑战,包括遮挡、数据集差异、目标尺度以及相机参数变化等问题。 为增强遮挡鲁棒性,我们提出了一种数学上可微分的非极大值抑制方法(GrooMeD-NMS)。为提升对新数据集的泛化能力,我们探索了深度等变(Depth Equivariant, DEVIANT)主干网络。针对大目标检测问题,我们证明其不仅仅是数据不平衡或感受野不足的问题,还涉及噪声敏感性。为此,我们提出了一种基于鸟瞰图分割并结合dice损失的方案(SeaBird)。最后,我们从数学角度分析了Mono3D模型在未见过的相机高度下的外推能力,并改进了其在此类分布外设置下的泛化表现。