【CVPR2021】用Transformers无监督预训练进行目标检测 - 专知

会员服务 ·

0

【CVPR2021】用Transformers无监督预训练进行目标检测

2021 年 3 月 3 日 专知

通过一个Transformer编码器-解码器架构的目标检测transformers (DETR)取得了与Faster R-CNN相匹配的性能。受预训练transformer在自然语言处理中取得的巨大成功的启发，我们提出了一种基于随机查询补丁检测的无监督预训练目标检测任务。具体地说，我们从给定的图像中随机裁剪小块，然后将它们作为查询输入解码器。该模型经过预训练，从原始图像中检测出这些查询补丁。在预训练，我们解决了两个关键问题:多任务学习和多查询定位。(1)为了权衡在前置任务中分类和定位的多任务学习，我们冻结CNN骨干，提出一个与patch检测联合优化的patch特征重构分支。(2)为实现多查询定位，我们引入了单查询补丁的UP-DETR ，并将其扩展为具有对象查询洗牌和注意掩码的多查询补丁。在我们的实验中，UP-DETR算法在PASCAL VOC和COCO数据集上具有更快的收敛速度和更高的精度，显著提高了DETR算法的性能。代码很快就会发布。

https://www.zhuanzhi.ai/paper/853834bf1a11589a505c42a963aa4fd5

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“DETR” 就可以获取《【CVPR2021】用Transformers无监督预训练进行目标检测》专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

4

相关内容

无监督预训练

无监督预训练

【CVPR2021】多实例主动学习目标检测

【CVPR2021】多实例主动学习目标检测

专知会员服务

43+阅读 · 2021年4月18日

【CVPR2021】基于特征解构与重构学习的人脸表情识别

专知会员服务

44+阅读 · 2021年4月18日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【CVPR2021】端到端的全卷积目标检测器

专知会员服务

30+阅读 · 2021年4月5日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【厦门大学-CVPR2020】协调可迁移性与可判别性的自适应目标检测器，Adapting Object Detectors

【厦门大学-CVPR2020】协调可迁移性与可判别性的自适应目标检测器，Adapting Object Detectors

专知会员服务

26+阅读 · 2020年3月16日

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

图神经网络架构，稳定性，可迁移性

图神经网络架构，稳定性，可迁移性

专知

5+阅读 · 2020年8月8日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【ICML2020】小样本目标检测

【ICML2020】小样本目标检测

专知

7+阅读 · 2020年6月2日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知

14+阅读 · 2020年4月6日

BERT技术体系综述论文：40项分析探究BERT如何work

BERT技术体系综述论文：40项分析探究BERT如何work

专知

50+阅读 · 2020年3月1日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知

6+阅读 · 2020年2月20日

106页《深度CNN-目标检测》综述进展论文

106页《深度CNN-目标检测》综述进展论文

专知

4+阅读 · 2018年9月30日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Colorization Transformer

Arxiv

9+阅读 · 2021年2月8日

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

Arxiv

10+阅读 · 2020年12月31日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese

Arxiv

5+阅读 · 2018年6月4日

Cross-Domain Weakly-Supervised Object Detection through Progressive Domain Adaptation

Arxiv

6+阅读 · 2018年3月30日

VIP会员

相关主题

无监督预训练

监督预训练

编码器-解码器架构

相关VIP内容

【CVPR2021】多实例主动学习目标检测

【CVPR2021】多实例主动学习目标检测

专知会员服务

43+阅读 · 2021年4月18日

【CVPR2021】基于特征解构与重构学习的人脸表情识别

专知会员服务

44+阅读 · 2021年4月18日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【CVPR2021】端到端的全卷积目标检测器

专知会员服务

30+阅读 · 2021年4月5日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【厦门大学-CVPR2020】协调可迁移性与可判别性的自适应目标检测器，Adapting Object Detectors

【厦门大学-CVPR2020】协调可迁移性与可判别性的自适应目标检测器，Adapting Object Detectors

专知会员服务

26+阅读 · 2020年3月16日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

图神经网络架构，稳定性，可迁移性

图神经网络架构，稳定性，可迁移性

专知

5+阅读 · 2020年8月8日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【ICML2020】小样本目标检测

【ICML2020】小样本目标检测

专知

7+阅读 · 2020年6月2日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知

14+阅读 · 2020年4月6日

BERT技术体系综述论文：40项分析探究BERT如何work

BERT技术体系综述论文：40项分析探究BERT如何work

专知

50+阅读 · 2020年3月1日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知

6+阅读 · 2020年2月20日

106页《深度CNN-目标检测》综述进展论文

106页《深度CNN-目标检测》综述进展论文

专知

4+阅读 · 2018年9月30日

相关论文

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Colorization Transformer

Arxiv

9+阅读 · 2021年2月8日

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

Arxiv

10+阅读 · 2020年12月31日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese

Arxiv

5+阅读 · 2018年6月4日

Cross-Domain Weakly-Supervised Object Detection through Progressive Domain Adaptation

Arxiv

6+阅读 · 2018年3月30日

大家都在搜

软件无线电

大型语言模型

国防科技创新

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员