【博士论文】复杂场景下高精度有向目标检测的研究

本论文旨在研究复杂场景下高精度的有向目标检测算法。有向目标检测是通用水平目标检测的一个扩展研究方向，其主要特点是可以更精准地定位目标，并擅长完成包含大量密集排列、大长宽比、方向任意目标的复杂场景的检测任务。大量文献表明，有向目标检测不仅在计算机视觉领域中有着重要的学术研究价值，在国防建设、科学技术、医学治疗、食品健康、工业发展、环境保护、农业养殖、公共安全、文化传播等领域也具有广阔的应用价值。受益于通用水平目标检测在深度学习时代的蓬勃发展，有向目标检测器可以很轻松地基于先进的水平检测算法进行实现。但是，有向目标检测的研究常常需要面对一些独特的问题挑战，如不同定义法下由边界不连续造成的损失陡增、类正方目标导致的表示歧义等。如何更加高效地实现高精度有向目标检测已成为当下的研究热点。本论文以有向目标检测为研究重点，在鲁棒有向目标检测器搭建、高效位姿参数估计、弱监督算法探索以及有向目标检测工具设计这四个方面来扩展和完善现有的算法。论文的主要贡献包含以下几方面：

• 介绍了如何基于一个水平目标检测器搭建出一个有向目标检测器，主要内容包括不同旋转框的定义、不同锚框的形式、旋转框重叠率的计算、回归参数的估计以及回归损失等基础知识。

• 提出了一种从粗到细的渐进式回归的有向目标检测器 R 3Det。本文针对单阶段级联检测器中存在的特征不对齐问题设计了特征精修模块，最终在精度和速度之间取得了较佳的平衡。

• 在特定旋转框定义法下，本文通过将角度估计方式从回归转换成精细的分类（CSL 和 DCL）以解决有向目标检测中的边界不连续问题，并进一步采用四边分类的策略在构造的新数据集 OHD-SJTU 上实现了目标头部检测。

• 为同时解决边界不连续、类正方形检测以及评估与损失不一致性等问题，本文提出了高斯分布建模和距离度量技术（GWD 和 KLD）。通过尺度不变性证明和梯度分析，本文发现使用 KLD 作为最终的回归损失可以显著地提升高精度指标。

• 在保留高斯分布建模的优势下，本文提出了使用分布之间的相似性度量 (KFIoU) 取代距离度量，更好地解决了评估与损失不一致的问题并在不引入任何超参数的情况下取得了性能的提升。

• 本文首次在目标检测领域中提出了一个新的研究课题：基于水平框标注训练的弱监督有向目标检。同时，本文设计了一种新的自监督的网络架构 (H2RBox)，其通过衡量输入图片在不同视图下的一致性来实现精准的旋转。框估计。与基于弱监督实例分割的方法相比，H2RBox 具有性能高、速度快和存储需求低的优势，且各方面都接近强监督有向目标检测算法。

• 从学术研究、工业部署和国产化三个角度出发，本文分别基于 TensorFlow、 PyTorch 和 Jittor 搭建了三种各具特色的有向目标检测工具：MMRotate、 AlphaRotate 和 JDet，为有向目标检测的发展和应用提供了便利。