Object detection with transformers (DETR) reaches competitive performance with Faster R-CNN via a transformer encoder-decoder architecture. Inspired by the great success of pre-training transformers in natural language processing, we propose a pretext task named random query patch detection to Unsupervisedly Pre-train DETR (UP-DETR) for object detection. Specifically, we randomly crop patches from the given image and then feed them as queries to the decoder. The model is pre-trained to detect these query patches from the original image. During the pre-training, we address two critical issues: multi-task learning and multi-query localization. (1) To trade off classification and localization preferences in the pretext task, we freeze the CNN backbone and propose a patch feature reconstruction branch which is jointly optimized with patch detection. (2) To perform multi-query localization, we introduce UP-DETR from single-query patch and extend it to multi-query patches with object query shuffle and attention mask. In our experiments, UP-DETR significantly boosts the performance of DETR with faster convergence and higher average precision on object detection, one-shot detection and panoptic segmentation. Code and pre-training models: https://github.com/dddzg/up-detr.


翻译:以变压器探测变压器(DETR)为对象进行变压器天体探测(DETR),通过变压器编码器-decoder结构,以更快R-CNN为竞争性性能。在自然语言处理培训前变压器的伟大成功激励下,我们提出一个托辞任务,名为随机查询补丁探测(UP-DETR),以进行天体探测。具体来说,我们随机从给定图像中裁剪补丁,然后将补丁输入解码器。模型经过预先训练,以探测原始图像中的这些查询补丁。在培训前,我们处理两个关键问题:多任务学习和多任务本地化。 (1) 在借口任务中,为了交换分类和本地化偏好,我们冻结CNN的骨架,并提议一个补丁重建分支。 (2) 为了进行多任务局部化检测,我们从单一任务补丁带引入了UP-DETR,然后将它扩大到带有对象查询和注意面罩的多query补丁。在我们的实验中,UP-DETR大大提升了DETR的绩效,以更快的趋同级和平均精确度探测。

0
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
160+阅读 · 2020年3月18日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
Arxiv
5+阅读 · 2018年5月16日
Arxiv
11+阅读 · 2018年4月8日
VIP会员
相关VIP内容
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
Top
微信扫码咨询专知VIP会员