ICLR 2022 | 将Anchor box重新引入DETR，提供query可解释性并加速收敛

会员服务 ·

ICLR 2022 | 将Anchor box重新引入DETR，提供query可解释性并加速收敛

2022 年 9 月 27 日 PaperWeekly

©作者 | 刘世隆

单位 | 清华大学

研究方向 | 计算机视觉

本文分享一下我们 ICLR 2022 的文章 DAB-DETR，我们将在这里介绍文章的主要内容，以及我们对于目标检测问题的思考。

论文标题：

DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR

论文链接：

https://arxiv.org/abs/2201.12329

ReadPaper链接：

https://readpaper.com/paper/4588454363555438593

代码链接：

https://github.com/IDEA-Research/DAB-DETR

这篇文章知乎上已经有不少很棒的解读，非常详细和有启发性，大家也可以一同食用：

https://zhuanlan.zhihu.com/p/560513044

https://zhuanlan.zhihu.com/p/494600828

非常感谢上面作者的详细解读。

我们的代码已经开源。另外我们提供了官方的基于 Transformer 检测工具包 detrex，这一工具包包含了 DETR，Deformable DETR，Conditional DETR，DAB-DETR，DN-DETR，以及在 COCO 获得了 63.3AP 的 DINO，并将进一步支持更多的 DETR 类模型：

https://github.com/IDEA-Research/detrex

TL;DR

DAB-DETR 提出了一种新的建模 DETR 中 query 的方式，使用 4 维的 anchor box，这一建模方式不仅使得 DETR query 有了可解释性，同时作为位置先验可以加速模型收敛，以及利用 box 的尺度信息调制注意力图。

这一建模方式也将 DETR 类模型和传统的 two-stage 模型如 Faster RCNN 联系了起来。decoder 中 cross-attention 的作用类似于 ROI pooling 或者 ROI align，我们称之为 soft-ROI pooling。

模型性能：

我们的 formulation 可以使用在原始 DETR 或者 Deformable DETR 上，都能相比于原始模型带来很大的增益。另外，基于我们新的算法库 detrex 的模型带来了更好的结果。

文章内容简述

2.1 动机和分析

DETR 作为首个使用 Transformer 做目标检测的模型，非常具有创新性。他将目标检测建模成集合预测的任务，即输入一组（如 100 个）learnable 的 query，然后输入对应数量（如 100 个）的物体预测结果。在训练过程中，使用二分图匹配预测和标签进行训练，而测试时不需要后处理（如 nms）即可产生所有结果。

尽管很简单、优雅，但是 DETR 存在两个问题，一是 query 含义并不清楚，不可解释，二是模型收敛慢。我们在这篇文章里主要希望解决两个问题。本来这应该是两个独立问题，不过后来我们发现，DETR 收敛慢很大程度上来自于 query 含义的不明。

DETR中的query

在原始的 DETR 文章中的 object query 画的比较简单，可能会让人觉得 query 就是一组向量：

然而实际上 object query 应该有两部分组成，我们称之为 content query 和 positional query（这里感谢 conditional detr，这两个名字由他们提出。）我们这里画出来了 encoder 和 decoder 中的 attention 的组成部分。

可以看到，encoder 和 decoder 里 attention 和 query 和 key 都是由两部分组成的，比如 encoder 里的 query 分别来自于图像特征（包含语义信息）和位置编码（包含位置信息），因此这两部分分别称为 content query（对应图像特征）和 positional query（对应位置编码）。key 和 query 完全相同。value 只有图像特征这一语义部分。

再看 decoder，decoder 的 key 和 value 与 encoder 的组成完全相同，但是 query 则不同。query 的语义部分来自于 decoder embeddings，对应上层的输入，是由图像特征组合来的。而位置部分则来自于 learnable queries，这是与我们看 DETR 的框架图后的第一反应不同的。因此 decoder 的 learnable query 实际指代的是位置信息。

2.2 Cross-attention的作用与soft-ROI pooling

接下来我们想来说明一下 cross-attention 在做什么，以及与传统的 Faster RCNN 之间的关系。

我们看到，在 attention 模块中，query 和 key 计算相似度，同时考虑了 content 信息和 positional 信息，计算出一个注意力图，然后使用这个注意力图从原始图片特征中提取特征。

这个步骤非常类似于传统两阶段检测器中的 ROI pooling（或者 ROI align）。但是由于注意力图是有 query 和 key 共同决定的，并不局限于物体框内信息，我们称之为 Soft ROI pooling。

2.3 将query建模成anchor box

learnable query 不够好

既然了解了 attention 及 decoder 的作用，下面我们看原始的 detr 中 query 问题在哪。

我们发现，原始的 learnable query 学习到的特征并不够好，即不能提供 soft roi pooling 中所需的 roi 信息。

如图，训练前后的 learnable query 产生的位置注意力图仍然存在多模式、退化解等现象，并不能为 soft roi pooling 提供 roi 的信息。

那么很自然的，我们意识到，要为 cross attention 提供更好的位置先验，提供更好的 roi region。很自然的，传统两阶段检测器中的 anchor box 可以引入到模型中作为位置先验。

引入anchor box作为query提供位置先验

将 anchor box 引入之后的好处有：

query 有了可解释性。
为模型提供了位置先验，加速收敛。
anchor box 中的位置信息可以用来调制注意力图。
anchor box 可以层与层进行更新。

anchor box 直接提供了 roi 区域用来做 soft roi pooling，因而这一描述也更加的自然。

模型改进简述

我们将我们的模型和 DETR&Conditional DETR 的对比列了出来。我们核心改进有：

直接学习 anchor box 作为 query
使用正余弦编码后的 x,y 作为 positional query
使用 w,h 调制注意力图
层与层更新 anchor box

2.4 DAB-Deformable-DETR

我们的建模方式也是通用的，我们将 anchor box 的建模方式用到 deformble DETR 里，依然能带来性能的提升。

2.5 DETR类模型对比

我们在文章里做了很多对比，包括将 DAB-DETR 和之前的 DETR 系列做对比：

DAB-DETR & Faster RCNN

这里其实更想和大家分享关于 DETR 和传统检测器进行对比。从我们的讨论中我们看到，DETR 中的 encoder 起到了特征增强的作用，类似于一个 non-local 的模块。

而更令人着迷的 decoder 则起到了类似于 two-stage 模型中 ROI head 的作用，通过 Soft ROI pooling 的方式不断从特征图中采集特征，进行 box 的回归。而多个 decoder layer 又起到了类似于 cascade RCNN，类似于级联的 ROI head 的效果。

那么现在来看除了结构上（Transformer 和卷积）以外，DAB-DETR 和 Faster RCNN 还有哪些区别：

一是 box 产生的方式。Faster RCNN 来自于 RPN，而 DAB-DETR 来自于 learnable 的 anchor box（从这个意义上 DAB-DETR 更像是 Sparse RCNN）。那如果我们也将 DAB-DETR 的 anchor box 来自一个 RPN 或者 encoder 输出（Deformble DETR 已经做了），我们也可以构造一个 two stage 的 DAB-DETR，也会有更好的性能。

二是标签分配的方式。DETR 类模型的匹配是匈牙利匹配，one-to-one，同时考虑 content 和 position，在 layer 之后；而 Faster RCNN 是 one-to-many（一个 gt 可能对应多个 anchor），只考虑 position，在 layer 之前。

那么最理想的匹配方式是什么？有没有更好的匹配方案？也是一个值得研究的问题。这里推荐 peize 大佬的一篇文章 What Makes for End-to-End Object Detection? 很有启发意义。

综上，DETR 结构也可以看做是一种 two stage 模型，只是用了不同的模型结构（Transformer）和标签分配方式（匈牙利匹配）。

写在最后

我们后续又提出了 DN-DETR，DINO 等工作：

https://zhuanlan.zhihu.com/p/478079763

https://zhuanlan.zhihu.com/p/540786844

也欢迎大家试用我们的 detrex 工具包：

https://github.com/IDEA-Research/detrex

我们充分相信 Transformer-based/DETR 类模型将会称为目标检测带来更广泛的影响，希望更多人来一同推动这一领域的发展。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

关注 0

TR：IEEE Transactions on Robotics Explanation： Publisher：IEEE。 SIT： http://dblp.uni-trier.de/db/journals/trob/

CVPR 2022 Oral | 南京大学AdaMixer：基于快速收敛查询的目标检测器

专知会员服务

11+阅读 · 2022年4月10日

【CVPR 2022】基于windows的图像压缩注意，The Devil Is in the Details: Window-based Attention for Image Compression

专知会员服务

8+阅读 · 2022年3月12日

【CVPR 2022】采用稀疏Transformer的单步法三维物体检测器，Embracing Single Stride 3D Object Detector with Sparse Transformer

专知会员服务

5+阅读 · 2022年3月12日

【CVPR2022】机器人物体重排的迭代流最小化，IFOR: Iterative Flow Minimization for Robotic Object Rearrangement

专知会员服务

5+阅读 · 2022年3月2日

【AAAI2022】锚点DETR：基于transformer检测器的查询设计

专知会员服务

13+阅读 · 2021年12月31日

【NeurIPS 2021】使用动态图进行3D目标检测

专知会员服务

15+阅读 · 2021年10月15日

【CVPR2021】通道注意力的高效移动网络设计

专知会员服务

20+阅读 · 2021年4月27日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

30+阅读 · 2020年11月21日

【NeurIPS 2020】依图推出预训练语言理解模型ConvBERT

专知会员服务

12+阅读 · 2020年11月13日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

首个目标检测扩散模型，比Faster R-CNN、DETR好，从随机框中直接检测

机器之心

1+阅读 · 2022年11月21日

Group DETR：分组一对多匹配是加速DETR收敛的关键

PaperWeekly

0+阅读 · 2022年8月8日

霸榜COCO！DINO: 让目标检测拥抱Transformer

PaperWeekly

1+阅读 · 2022年7月24日

CVPR 2022 | BoxeR：用于2D和3D Transformer的Box新注意力机制

CVer

0+阅读 · 2022年5月31日

CVPR 2022 | 图森未来提出小目标检测工作QueryDet：使用级联稀疏query加速高分辨率下的小目标检测

CVer

2+阅读 · 2022年5月28日

大白话用Transformer做Object Detection

PaperWeekly

2+阅读 · 2022年5月3日

CVPR'22 Oral｜目标检测的新工作开源！AdaMixer：基于快速收敛查询的目标检测器

极市平台

0+阅读 · 2022年4月6日

CVPR 2022 | 即插即用！南洋理工&商汤开源SAM-DETR: 利用语义对齐匹配实现快速收敛的DETR

CVer

1+阅读 · 2022年4月1日

CVPR 2022｜打破传统的跟踪范式！南大开源MixFormer：端到端目标检测新模型

极市平台

2+阅读 · 2022年3月24日

CVPR 2022 | 高分论文！港科大/IDEA/清华提出DN-DETR: 加速DETR收敛的去噪训练

CVer

3+阅读 · 2022年3月11日

新型磷酸二酯酶-4（PDE4）抑制剂罗氟普兰抗抑郁效应的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏正则化模型与算法的研究

国家自然科学基金

3+阅读 · 2015年12月31日

液态锂腐蚀对铁力学性能影响的多尺度分析

国家自然科学基金

0+阅读 · 2014年12月31日

IMC/Al功能梯度复合材料的搅拌摩擦增材制造、形成机理及力学行为

国家自然科学基金

0+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

自旋轨道耦合BEC系统的混沌特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

拉伸变形过程中非晶合金纳米尺度结构不均匀性的演化

国家自然科学基金

0+阅读 · 2013年12月31日

青藏高原东缘及周边区域岩石圈各向异性和变形特征研究

国家自然科学基金

0+阅读 · 2012年12月31日

26S蛋白酶体调节亚基组成蛋白Rpn5-Rpn9复合物的晶体结构

国家自然科学基金

0+阅读 · 2012年12月31日

遍历哈密顿系统的谱理论

国家自然科学基金

0+阅读 · 2009年12月31日

A Probabilistic Approach to The Perfect Sum Problem

Arxiv

0+阅读 · 2022年11月25日

Backdoor Attack and Defense in Federated Generative Adversarial Network-based Medical Image Synthesis

Arxiv

0+阅读 · 2022年11月24日

COCO-DR: Combating Distribution Shifts in Zero-Shot Dense Retrieval with Contrastive and Distributionally Robust Learning

Arxiv

0+阅读 · 2022年11月24日

Teach-DETR: Better Training DETR with Teachers

Arxiv

0+阅读 · 2022年11月23日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Imbalance Problems in Object Detection: A Review

Arxiv

25+阅读 · 2020年3月11日

Reverse Attention for Salient Object Detection

Arxiv

11+阅读 · 2019年4月15日

Convolutional Neural Networks for Aerial Multi-Label Pedestrian Detection

Arxiv

11+阅读 · 2018年7月16日

A Robust Real-Time Automatic License Plate Recognition based on the YOLO Detector

Arxiv

13+阅读 · 2018年3月1日

Unsupervised Cipher Cracking Using Discrete GANs

Arxiv

11+阅读 · 2018年1月15日

VIP会员