【速览】ICCV 2021丨Oriented R-CNN：有向目标检测

2021 年 8 月 25 日 中国图象图形学学会CSIG

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

Oriented R-CNN：有向目标检测

谢星星 , 程塨

^{*}

, 王家宝 , 姚西文 , 韩军伟

西北工业大学自动化学院

ICCV 2021

撰稿人：谢星星

*通讯作者：程塨 (gcheng@nwpu.edu.cn)

推荐理事：林宙辰

原文标题：Oriented R-CNN for Object Detection

原文链接：https://arxiv.org/abs/2108.05699

原文代码链接: https://github.com/jbwang1997/OBBDetection

◆ ◆ ◆ ◆

摘要

当前先进的双阶段有向目标检测方法需要通过耗时的过程来产生有向候选框。这极大的制约了有向目标检测的速度，从而成为先进有向目标检测的计算瓶颈。本文提出了一种简单、有效的有向目标检测方法，称为Oriented R-CNN。Oriented R-CNN是一种通用的两阶段有向目标检测方法，它能够在保证高检测精度的同时兼顾检测效率。具体来说，在Oriented R-CNN的第一阶段，我们提出了一种有向候选框生成网络（Oriented RPN），它以低计算成本的方式生成高质量的有向候选框。Oriented R-CNN的第二阶段是有向目标检测头，它用于有向候选框的分类和精细回归。以ResNet50为骨干网络，Oriented R-CNN在两个常用的有向目标检测数据集DOTA (75.87% mAP)和HRSC2016(96.50% mAP)上均取得了最好的检测结果。同时，在输入图像大小为1024×1024时，Oriented R-CNN在单块RTX 2080Ti上能够达到每秒15.1帧的检测速度。我们希望Oriented R-CNN能够对后续有向目标检测方法的设计提供一些启发，并作为有向目标检测的新基准。

背景

目前先进的有向目标检测方法都是基于区域建议范式的(例如Fast/Faster R-CNN [1-2])。它们在第一阶段产生有向候选框，在第二阶段对候选框进行分类和回归。然而它们的有向候选框生成阶段仍然非常耗时。

作为早期的有向候选框生成方法，Rotated RPN[3]在特征图的每个位置上放置54个不同尺度、长宽比和角度的预设锚框Anchor，如图1(a)所示。Rotated RPN虽然提升了检测的召回率，但也增加了计算成本和内存占用。针对上述问题，RoI Transformer [4]使用水平候选框来生成有向候选框，如图1 (b)所示。RoI Transformer显著地提升了有向目标检测的准确率。然而它需要涉及多个步骤（水平候选框生成、RoI Alignments和有向候选框生成）。整个过程仍然非常耗时。所以，如何设计一种高效的有向候选框生成方法成为突破当前先进有向目标检测计算瓶颈的关键。

那么我们能否设计一个通用的、简单的有向候选框生成方法，用于直接生成高质量候选框？本文提出了一种有向目标检测方法，称为Oriented R-CNN。它的检测精度超越了现有的有向目标检测方法，并且具有和单阶段有向目标检测相媲美的速度。具体来说，我们在Oriented R-CNN的第一阶段设计了一种有向候选框生成网络Oriented RPN，如图1(c)。Oriented RPN是一个轻量的全卷积网络——在RPN回归分支上增加两个回归参数。同时，我们提出了中点偏移法来表示有向目标。中点偏移法使用6个参数表示有向目标，它与水平框回归配合使用，避免了训练时角点回归的顺序问题，同时也为有向框的回归提供约束。Oriented R-CNN的第二阶段主要对候选框进行分类和精细回归。最终，Oriented R-CNN在DOTA和HRSC2016数据集上均取得了最好的检测结果，同时拥有和单阶段有向目标检测可比拟的速度。

图 1.有向候选框生成方法对比。(a) Rotated RPN放置54个不同尺度、长宽比和角度的anchor。(b) RoI Transformer $^{+}$ 使用水平候选框来生成有向候选框。它需要涉及水平候选框生成、RoI Alignment和有向候选框生成。 $^{+}$ 代表RoI Transformer在AerialDetection的发行版本（下同）。(c) Oriented RPN以低计算成本的方式直接生成高质量有向候选框。它的参数约为RoI Transformer $^{+}$ 的1/3000, rotated RPN的1/15。

方法描述

Oriented R-CNN的整体框架如图2所示。它是一种两阶段的有向目标检测方法。首先通过Oriented RPN生成有向候选框，然后通过Rotated RoIAlign提取固定尺寸大小的特征，最后将提取的特征作为有向检测头的输入，执行分类和精细回归。Oriented R-CNN的核心在于Oriented RPN。

Oriented RPN 旨在产生高质量的有向候选框。它是在RPN网络上构建的。我们通过修改RPN回归分支的输出维度，就能将RPN用于有向候选框的生成。对于每个位置的Anchor，Oriented RPN输出 $\left (x,y,w,h,\Delta \alpha ,\Delta \beta \right )$ 6个回归参数，我们使用其表示有向候选框。这种表示方法称为中点偏移法，如图3所示。其中 $\left (x,y \right ),w,h$ 分别表示有向候选框外接矩形的中心坐标、宽和高。 $\left (\Delta \alpha ,\Delta \beta \right )$ 代表有向候选框外接矩形顶边和右边中点的偏移。通过对 $\left (x,y,w,h,\Delta \alpha ,\Delta \beta \right )$ 进行解码，我们可得到有向候选框顶点的坐标集合 $\mathbf{v}= \left \{v1,v2,v3,v4 \right \}$ 。其中， $v1$ 的坐标表示为 $\left ( x+\Delta \alpha ,y-h/2 \right )$ ， $v2$ 的坐标表示为 $\left ( x+w/2 ,y+\Delta \beta\right )$ 。根据平行四边形的对称性，我们可得到 $v3$ 和 $v4$ 的坐标分别为 $\left ( x-\Delta \alpha ,y+h/2 \right )$ 和 $\left ( x-w/2 ,y-\Delta \beta\right )$ 。这样在原有水平候选框回归的基础上，我们只需回归水平候选框任意两条相邻边中点的偏移，就能实现有向候选框的生成。

根据 $\mathbf{v}= \left \{\mathcal{v}1,v2,v3,v4 \right \}$ 得到的有向候选框属于平行四边形。为了便于进行Rotated RoIAlign操作，我们将Oriented RPN生成的有向候选框调整为有向矩形框。通过对调整后的有向候选框进行Rotated RoIAlign操作，我们获得7×7×256大小的特征图，将其作为有向检测头的输入，执行分类和回归任务。有向检测头是在原有Fast R-CNN的基础上构建，通过增加角度回归参数实现。

图 2. Oriented R-CNN的整体框架

图 3.中点偏移表示法，橘色的点代表有向框的顶点，黑色的点代表外接矩形各条边的中点

实验结果

Oriented R-CNN在DOTA[5]和HRSC2016[6]两个数据集上进行了实验验证。图4给出了Oriented R-CNN在DOTA数据集上的部分检测结果。表1和表2分别给出了Oriented R-CNN与其它有向目标检测方法在DOTA数据集和HRSC2016数据集上的精度对比。表3给出了Oriented R-CNN和其它有向目标检测算法在DOTA数据集的速度对比。实验结表明，Oriented R-CNN是一种简单、有效的有向目标检测方法，它在获得最高精度的同时兼顾了检测效率。

图 4. Oriented R-CNN 在DOTA数据集上的部分检测结果

表 1.“Oriented R-CNN与其它有向目标检测算法在精度方面的结果对比（DOTA数据集）。‡代表多尺度训练多尺度测试”

表 2.“Oriented R-CNN与其它有向目标检测算法在精度方面的结果对比（HRSC2016数据集）”

表 3.Oriented R-CNN与其它有向目标检测算法在速度方面的结果对比（DOTA数据集）

参考文献

[1] Ross Girshick. Fast R-CNN. In Proceedings of the IEEE International Conference on Computer Vision, pages 1440-1448, 2015.

[2] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6):1137-1149, 2016.

[3] Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, and Xiangyang Xue. Arbitrary-oriented scene text detection via rotation proposals. IEEE Transactions on Multimedia, 20(11):3111-3122, 2018.

[4] Jian Ding, Nan Xue, Yang Long, Gui-Song Xia, and Qikai Lu. Learning roi transformer for oriented object detection in aerial images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2849-2858, 2019.

[5] Gui-Song Xia, Xiang Bai, Jian Ding, Zhen Zhu, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, and Liangpei Zhang. DOTA: A large-scale dataset for object detection in aerial images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3974-3983, 2018.

[6] Zikun Liu, Hongzhen Wang, Lubin Weng, and Yiping Yang. Ship rotated bounding box space for ship extraction from high-resolution optical satellite images with complex backgrounds. IEEE Geoscience and Remote Sensing Letters, 13(8):1074-1078, 2016