【速览】ICCV 2021丨Oriented R-CNN:有向目标检测

2021 年 8 月 25 日 中国图象图形学学会CSIG
   


















会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~










◆ ◆ ◆ ◆

Oriented R-CNN:有向目标检测

谢星星  ,  程塨    ,  王家宝  ,  姚西文  , 韩军伟  
西北工业大学自动化学院
ICCV 2021
撰稿人: 谢星星

*通讯作者:程塨 (gcheng@nwpu.edu.cn)

推荐理事:林宙辰
原文标题:Oriented R-CNN for Object Detection
原文链接:https://arxiv.org/abs/2108.05699
原文代码链接: https://github.com/jbwang1997/OBBDetection









◆ ◆ ◆ ◆


摘要
当前先进的双阶段有向目标检测方法需要通过耗时的过程来产生有向候选框。这极大的制约了有向目标检测的速度,从而成为先进有向目标检测的计算瓶颈。本文提出了一种简单、有效的有向目标检测方法,称为Oriented R-CNN。Oriented R-CNN是一种通用的两阶段有向目标检测方法,它能够在保证高检测精度的同时兼顾检测效率。具体来说,在Oriented R-CNN的第一阶段,我们提出了一种有向候选框生成网络(Oriented RPN),它以低计算成本的方式生成高质量的有向候选框。Oriented R-CNN的第二阶段是有向目标检测头,它用于有向候选框的分类和精细回归。以ResNet50为骨干网络,Oriented R-CNN在两个常用的有向目标检测数据集DOTA (75.87% mAP)和HRSC2016(96.50% mAP)上均取得了最好的检测结果。同时,在输入图像大小为1024×1024时,Oriented R-CNN在单块RTX 2080Ti上能够达到每秒15.1帧的检测速度。我们希望Oriented R-CNN能够对后续有向目标检测方法的设计提供一些启发,并作为有向目标检测的新基准。
背景

目前先进的有向目标检测方法都是基于区域建议范式的(例如Fast/Faster R-CNN [1-2])。它们在第一阶段产生有向候选框,在第二阶段对候选框进行分类和回归。然而它们的有向候选框生成阶段仍然非常耗时。

作为早期的有向候选框生成方法,Rotated RPN[3]在特征图的每个位置上放置54个不同尺度、长宽比和角度的预设锚框Anchor,如图1(a)所示。Rotated RPN虽然提升了检测的召回率,但也增加了计算成本和内存占用。针对上述问题,RoI Transformer [4]使用水平候选框来生成有向候选框,如图1 (b)所示。RoI Transformer显著地提升了有向目标检测的准确率。然而它需要涉及多个步骤(水平候选框生成、RoI Alignments和有向候选框生成)。整个过程仍然非常耗时。所以,如何设计一种高效的有向候选框生成方法成为突破当前先进有向目标检测计算瓶颈的关键。

那么我们能否设计一个通用的、简单的有向候选框生成方法,用于直接生成高质量候选框?本文提出了一种有向目标检测方法,称为Oriented R-CNN。它的检测精度超越了现有的有向目标检测方法,并且具有和单阶段有向目标检测相媲美的速度。具体来说,我们在Oriented R-CNN的第一阶段设计了一种有向候选框生成网络Oriented RPN,如图1(c)。Oriented RPN是一个轻量的全卷积网络——在RPN回归分支上增加两个回归参数。同时,我们提出了中点偏移法来表示有向目标。中点偏移法使用6个参数表示有向目标,它与水平框回归配合使用,避免了训练时角点回归的顺序问题,同时也为有向框的回归提供约束。Oriented R-CNN的第二阶段主要对候选框进行分类和精细回归。最终,Oriented R-CNN在DOTA和HRSC2016数据集上均取得了最好的检测结果,同时拥有和单阶段有向目标检测可比拟的速度。

图 1.有向候选框生成方法对比。(a) Rotated RPN放置54个不同尺度、长宽比和角度的anchor。(b) RoI Transformer   使用水平候选框来生成有向候选框。它需要涉及水平候选框生成、RoI Alignment和有向候选框生成。    代表RoI Transformer在AerialDetection的发行版本(下同)。(c) Oriented RPN以低计算成本的方式直接生成高质量有向候选框。它的参数约为RoI Transformer  的1/3000, rotated RPN的1/15。

方法描述

Oriented R-CNN的整体框架如图2所示。它是一种两阶段的有向目标检测方法。首先通过Oriented RPN生成有向候选框,然后通过Rotated RoIAlign提取固定尺寸大小的特征,最后将提取的特征作为有向检测头的输入,执行分类和精细回归。Oriented R-CNN的核心在于Oriented RPN。

Oriented RPN 旨在产生高质量的有向候选框。它是在RPN网络上构建的。我们通过修改RPN回归分支的输出维度,就能将RPN用于有向候选框的生成。对于每个位置的Anchor,Oriented RPN输出   6个回归参数,我们使用其表示有向候选框。这种表示方法称为中点偏移法,如图3所示。其中   分别表示有向候选框外接矩形的中心坐标、宽和高。   代表有向候选框外接矩形顶边和右边中点的偏移。通过对   进行解码,我们可得到有向候选框顶点的坐标集合   。其中,   的坐标表示为   ,   的坐标表示为   。根据平行四边形的对称性,我们可得到   和   的坐标分别为   和   。这样在原有水平候选框回归的基础上,我们只需回归水平候选框任意两条相邻边中点的偏移,就能实现有向候选框的生成。

根据   得到的有向候选框属于平行四边形。为了便于进行Rotated RoIAlign操作,我们将Oriented RPN生成的有向候选框调整为有向矩形框。通过对调整后的有向候选框进行Rotated RoIAlign操作,我们获得7×7×256大小的特征图,将其作为有向检测头的输入,执行分类和回归任务。有向检测头是在原有Fast R-CNN的基础上构建,通过增加角度回归参数实现。

图 2.  Oriented R-CNN的整体框架

图 3.中点偏移表示法,橘色的点代表有向框的顶点,黑色的点代表外接矩形各条边的中点
实验结果
Oriented R-CNN在DOTA[5]和HRSC2016[6]两个数据集上进行了实验验证。 图4给出了Oriented R-CNN在DOTA数据集上的部分检测结果。 表1和表2分别给出了Oriented R-CNN与其它有向目标检测方法在DOTA数据集和HRSC2016数据集上的精度对比。 表3给出了Oriented R-CNN和其它有向目标检测算法在DOTA数据集的速度对比。 实验结表明,Oriented R-CNN是一种简单、有效的有向目标检测方法,它在获得最高精度的同时兼顾了检测效率。

图 4.  Oriented R-CNN 在DOTA数据集上的部分检测结果

表 1.“Oriented R-CNN与其它有向目标检测算法在精度方面的结果对比(DOTA数据集)。‡代表多尺度训练多尺度测试”

表 2.“Oriented R-CNN与其它有向目标检测算法在精度方面的结果对比(HRSC2016数据集)”

表 3.Oriented R-CNN与其它有向目标检测算法在速度方面的结果对比(DOTA数据集)

参考文献
[1] Ross Girshick. Fast R-CNN. In Proceedings of the IEEE International Conference on Computer Vision, pages 1440-1448, 2015.
[2] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6):1137-1149, 2016.
[3] Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, and Xiangyang Xue. Arbitrary-oriented scene text detection via rotation proposals. IEEE Transactions on Multimedia, 20(11):3111-3122, 2018.
[4]  Jian Ding, Nan Xue, Yang Long, Gui-Song Xia, and Qikai Lu. Learning roi transformer for oriented object detection in aerial images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2849-2858, 2019.
[5]   Gui-Song Xia, Xiang Bai, Jian Ding, Zhen Zhu, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, and Liangpei Zhang. DOTA: A large-scale dataset for object detection in aerial images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3974-3983, 2018.

[6] Zikun Liu, Hongzhen Wang, Lubin Weng, and Yiping Yang. Ship rotated bounding box space for ship extraction from high-resolution optical satellite images with complex backgrounds. IEEE Geoscience and Remote Sensing Letters, 13(8):1074-1078, 2016




关于第十一届国际图象图形学学术会议延期的通知
关于延期举办2021华南国际机器视觉展暨CSIG视觉前沿技术与应用研讨会的通知
关于2021年度中国图象图形学学会高级会员评选工作的通知
关于提名2021年度中国图象图形学学会会士候选人的通知
关于2021年度中国图象图形学学会奖励推荐工作的通知
中国图象图形学学会关于组织开展科技成果鉴定的通知

CSIG图像图形中国行承办方征集中

登录查看更多
0

相关内容

基于深度学习的图像目标检测算法综述
专知会员服务
92+阅读 · 2022年4月15日
浙大《深度学习低样本目标检测》综述论文
专知会员服务
73+阅读 · 2021年12月13日
专知会员服务
42+阅读 · 2021年8月20日
专知会员服务
20+阅读 · 2021年7月28日
专知会员服务
57+阅读 · 2021年5月11日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
15+阅读 · 2020年8月23日
深度学习目标检测方法综述
专知会员服务
259+阅读 · 2020年8月1日
【速览】ICCV 2021 | GraphFPN for Object Detection: 图特征金字塔网络
中国图象图形学学会CSIG
0+阅读 · 2021年10月26日
【速览】ICCV 2021丨MVSS-Net: 基于多视角多尺度监督的图像篡改检测
中国图象图形学学会CSIG
1+阅读 · 2021年9月3日
ICCV 2019 | 精确的端到端的弱监督目标检测网络
AI科技评论
11+阅读 · 2019年12月9日
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
目标检测算法盘点(最全)
七月在线实验室
17+阅读 · 2018年4月27日
使用SSD进行目标检测:目标检测第二篇
专知
29+阅读 · 2018年1月28日
论文 | YOLO(You Only Look Once)目标检测
七月在线实验室
14+阅读 · 2017年12月12日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Automated Data Augmentations for Graph Classification
Arxiv
18+阅读 · 2020年7月13日
VIP会员
相关VIP内容
基于深度学习的图像目标检测算法综述
专知会员服务
92+阅读 · 2022年4月15日
浙大《深度学习低样本目标检测》综述论文
专知会员服务
73+阅读 · 2021年12月13日
专知会员服务
42+阅读 · 2021年8月20日
专知会员服务
20+阅读 · 2021年7月28日
专知会员服务
57+阅读 · 2021年5月11日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
15+阅读 · 2020年8月23日
深度学习目标检测方法综述
专知会员服务
259+阅读 · 2020年8月1日
相关资讯
【速览】ICCV 2021 | GraphFPN for Object Detection: 图特征金字塔网络
中国图象图形学学会CSIG
0+阅读 · 2021年10月26日
【速览】ICCV 2021丨MVSS-Net: 基于多视角多尺度监督的图像篡改检测
中国图象图形学学会CSIG
1+阅读 · 2021年9月3日
ICCV 2019 | 精确的端到端的弱监督目标检测网络
AI科技评论
11+阅读 · 2019年12月9日
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
目标检测算法盘点(最全)
七月在线实验室
17+阅读 · 2018年4月27日
使用SSD进行目标检测:目标检测第二篇
专知
29+阅读 · 2018年1月28日
论文 | YOLO(You Only Look Once)目标检测
七月在线实验室
14+阅读 · 2017年12月12日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
相关基金
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员