In this paper, we study Multiscale Vision Transformers (MViT) as a unified architecture for image and video classification, as well as object detection. We present an improved version of MViT that incorporates decomposed relative positional embeddings and residual pooling connections. We instantiate this architecture in five sizes and evaluate it for ImageNet classification, COCO detection and Kinetics video recognition where it outperforms prior work. We further compare MViTs' pooling attention to window attention mechanisms where it outperforms the latter in accuracy/compute. Without bells-and-whistles, MViT has state-of-the-art performance in 3 domains: 88.8% accuracy on ImageNet classification, 56.1 box AP on COCO object detection as well as 86.1% on Kinetics-400 video classification. Code and models will be made publicly available.


翻译:在本文中,我们研究多规模视觉变异器(MViT),作为图像和视频分类以及物体探测的统一架构。我们展示了经过改进的MViT版本,其中包含了分解的相对位置嵌入和剩余集合连接。我们用五大尺寸对这一结构进行即时处理,并在图像网络分类、COCOCO探测和动能视频识别方面对其进行评估,使其在超过先前工作效果的地方得到评估。我们进一步比较了MViT的集中关注点与窗口关注机制,因为后者在准确/计算方面优于后者。没有钟和告示,MViT在3个领域有最新性能:图像网络分类88.8%的准确度,COCO物体探测56.1箱AP,以及动能-400视频分类86.1%。代码和模型将公布。

1
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年7月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
274+阅读 · 2020年11月26日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
94+阅读 · 2020年5月31日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
54+阅读 · 2019年10月17日
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
已删除
inpluslab
8+阅读 · 2019年10月29日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
6+阅读 · 2018年3月19日
Arxiv
4+阅读 · 2018年3月19日
VIP会员
相关资讯
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
已删除
inpluslab
8+阅读 · 2019年10月29日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
相关论文
Arxiv
11+阅读 · 2021年10月26日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
6+阅读 · 2018年3月19日
Arxiv
4+阅读 · 2018年3月19日
Top
微信扫码咨询专知VIP会员