DINO：目标检测benchmark COCO屠榜的正确姿势

会员服务 ·

DINO：目标检测benchmark COCO屠榜的正确姿势

2022 年 3 月 11 日 极市平台

↑ 点击蓝字关注极市平台

作者丨陈泰红（已授权）

来源丨https://zhuanlan.zhihu.com/p/478461226

编辑丨极市平台

转载请联系原作者授权，不得二次转载

极市导读

DETR系列的论文又屠榜了，在COCO test-dev达到创纪录的63.3AP！因此作者将2020年以来所有的DETR系列的优势和历程进行了一个梳理，本文只为抛砖引玉，更多的是希望大家能一起进行交流～ >>加入极市CV技术交流群，走在计算机视觉的最前沿

不小心在paperwithcode看到，DETR系列的论文又屠榜了，在COCO test-dev达到创纪录的63.3AP，忍不住想写一下，2020年以来DETR系列的优势和历程（如何灌水的）,虽然原作者也经常上知乎，班门弄斧只为抛砖引玉，更多的思想交流吧。

1 DETR干了啥？

DETR是2020年，由Facebook AI提出，开创性将Transformer引入Detection领域，去掉传统两阶段FasterRCNN和一阶段CenterNet的代表性小技巧（面试最容易考），如RoIpooling，NMS，anchor generation等。

Transformer中attention机制能够有效建模图像中的长程关系（long range dependency），真正实现end-to-end的目标检测新范式。

DETR将目标检测看作一种set prediction问题，并提出了一个十分简洁的目标检测pipeline：backbone CNN提特征，送入Transformer做关系建模，得到的输出通过二分图匹配算法与图片上的ground truth做匹配。

2 DINO能干啥？

最新屠榜的这篇DINO，是清华大学，香港科技大学等人提出来的，比较奇怪是论文相互引用，作者也几乎是同一套班底，DN-DETR发表在CVPR2022, DAB-DETR发表在ICLR2022,idea有很多相似的地方。

论文的说法是，解决三个问题:

a. Contrastive DeNoising Training

为了改善one-to-one匹配问题，训练的时候正样本和负样本同时加了噪声。添加smaller noise的作为正样本，其他作为负样本，主要目的是去重box。

b. Mixed Query Selection

类似于经典的two-stage模型，提出mixed query selection method，有助于改善queries的初始化。

c. Look Forward Twice

类似于经典的FPN，引入非临近层的特征，更像是增加感受一下，提高小目标的表达能力。

想了解DETR系列如何刷榜COCO的，可以看看Awesome Detection Transformer

https://github.com/IDEACVR/awesome-detection-transformer

3 为什么是COCO，objects365&openimages去哪里了？

去年的一个工作是用一个backbone，训练openimages& objects365&COCO 1000+目标，说的就是这篇论文Uninet，累的要命，objects365 64w图片，openimages 150w图片，而COCO只有12万，80类检测目标。训练objects365需要32G V100 8卡机一周，而训练COCO只需要32G V100 8卡机二小时，三个分支加一起就得1个月才能训练一遍。发论文需要千百次训练，哪有那么多时间，要是我也愿意在COCO做些文章，万一过拟合也能涨点不是。

4 Detection还要解决那些问题？

1. Transformer需要对特征图上每个位置都参与计算，高分辨率图像必然导致高计算量和空间复杂度，小目标检测一般，目前主要靠多尺度增强小目标的检测能力。

2. Transformer在初始化的时候，attention weights 几乎是平均的，迭代周期长，训练速度也会慢很多。

参考：

[1]DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection.

[paper]：https://arxiv.org/abs/2203.03605

[code]：https://github.com/IDEACVR/DINO

[2]DN-DETR: Accelerate DETR Training by Introducing Query DeNoising.

[paper] ：https://arxiv.org/abs/2203.01305

[code]：https://github.com/FengLi-ust/DN-DETR

[3]DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR.

[paper] ：https://arxiv.org/abs/2201.12329

[code]：https://github.com/SlongLiu/DAB-DETR

[4][DETR] End-to-End Object Detection with Transformers.

[paper] ：https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2005.12872

[code]：https://link.zhihu.com/?target=https%3A//github.com/facebookresearch/detr

公众号后台回复“数据集”获取30+深度学习数据集下载～

△点击卡片关注极市平台，获取最新CV干货

极市干货

数据集资源汇总： 10个开源工业检测数据集汇总｜ 21个深度学习开源数据集分类汇总

算法trick ：目标检测比赛中的tricks集锦｜从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks

技术综述：一文弄懂各种loss function ｜工业图像异常检测最新研究总结（2019-2020）

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart4）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

觉得有用麻烦给个在看啦~

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

基于深度学习的图像目标检测算法综述

专知会员服务

98+阅读 · 2022年4月15日

CVPR 2022 Oral | 南京大学AdaMixer：基于快速收敛查询的目标检测器

专知会员服务

11+阅读 · 2022年4月10日

CVPR2022 | 一种适用于密集场景的渐进式端到端目标检测器

专知会员服务

19+阅读 · 2022年3月25日

【AAAI2022】锚点DETR：基于transformer检测器的查询设计

专知会员服务

13+阅读 · 2021年12月31日

【NeurIPS 2021 】 K-Net-大统一图像分割任务：语义、实例乃至全景分割

专知会员服务

21+阅读 · 2021年12月14日

NeurIPS 2021丨K-Net: 迈向统一的图像分割

专知会员服务

17+阅读 · 2021年11月25日

【Hinton新论文】语言建模目标检测Pix2seq

专知会员服务

26+阅读 · 2021年9月23日

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

[NeurIPS 2020 oral] 基于因果干预的弱监督语义分割

专知会员服务

46+阅读 · 2020年10月5日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

CVPR 2022 Oral | 目标检测新工作！南大开源AdaMixer：快速收敛的基于查询的目标检测器

CVer

0+阅读 · 2022年4月7日

CVPR'22 Oral｜目标检测的新工作开源！AdaMixer：基于快速收敛查询的目标检测器

极市平台

0+阅读 · 2022年4月6日

CVPR 2022 | 高分论文！港科大/IDEA/清华提出DN-DETR: 加速DETR收敛的去噪训练

CVer

3+阅读 · 2022年3月11日

目标检测正负样本区分策略和平衡策略总结

极市平台

0+阅读 · 2022年3月1日

ICLR 2022 | 目标检测新坑来了！谷歌Hinton团队提出Pix2Seq：基于Transformer的检测新工作

CVer

1+阅读 · 2022年2月22日

Swin梅开三度！ETH 开源VRT：刷新视频复原多领域指标的Transformer

极市平台

0+阅读 · 2022年2月15日

目标检测之殇—小目标检测

极市平台

5+阅读 · 2021年11月3日

PolarMask: 一阶段实例分割新思路

极市平台

13+阅读 · 2019年10月10日

大盘点 | 性能最强的目标检测算法

新智元

13+阅读 · 2019年7月9日

ECCV 2018 | CornerNet：目标检测算法新思路

极市平台

13+阅读 · 2018年8月11日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多普勒搬移机理的机载MIMO雷达慢速目标检测方法

国家自然科学基金

2+阅读 · 2015年12月31日

融合多尺度上下文的图像标注研究

国家自然科学基金

2+阅读 · 2013年12月31日

针对目标检测跟踪问题的贝叶斯非参建模方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

视觉原理指导下的动目标检测与跟踪新方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

自底向上的静态图像显著性检测

国家自然科学基金

1+阅读 · 2012年12月31日

天基多基地MIMO雷达动目标检测方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于问题框架的需求和领域模型的变换及验证

国家自然科学基金

0+阅读 · 2012年12月31日

基于迭代支撑集检测的稀疏信号重构算法的研究和拓展

国家自然科学基金

0+阅读 · 2012年12月31日

融合视觉感知机理与知识模型的射线检测缺陷智能识别技术

国家自然科学基金

0+阅读 · 2012年12月31日

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Arxiv

0+阅读 · 2022年4月20日

Towards General Purpose Vision Systems

Arxiv

0+阅读 · 2022年4月19日

Panoptic segmentation with highly imbalanced semantic labels

Arxiv

0+阅读 · 2022年4月19日

Improving Cross-Modal Understanding in Visual Dialog via Contrastive Learning

Arxiv

1+阅读 · 2022年4月15日

K-Net: Towards Unified Image Segmentation

Arxiv

12+阅读 · 2021年11月1日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

A Simple Framework for Contrastive Learning of Visual Representations

Arxiv

21+阅读 · 2020年2月13日

Object Detection in 20 Years: A Survey

Arxiv

48+阅读 · 2019年5月13日

Transferring Common-Sense Knowledge for Object Detection

Arxiv

12+阅读 · 2018年4月3日

Improving Multiple Object Tracking with Optical Flow and Edge Preprocessing

Arxiv

10+阅读 · 2018年1月29日

VIP会员