扩大愿景转换器 (Scaling Vision Transformers) - 专知论文

会员服务 ·

0

缩放 · Vision · 模型评估 · MoDELS · 变换 ·

2021 年 6 月 8 日

Scaling Vision Transformers

翻译：扩大愿景转换器

Xiaohua Zhai,Alexander Kolesnikov,Neil Houlsby,Lucas Beyer

from arxiv, Xiaohua, Alex, and Lucas contributed equally

Attention-based neural networks such as the Vision Transformer (ViT) have recently attained state-of-the-art results on many computer vision benchmarks. Scale is a primary ingredient in attaining excellent results, therefore, understanding a model's scaling properties is a key to designing future generations effectively. While the laws for scaling Transformer language models have been studied, it is unknown how Vision Transformers scale. To address this, we scale ViT models and data, both up and down, and characterize the relationships between error rate, data, and compute. Along the way, we refine the architecture and training of ViT, reducing memory consumption and increasing accuracy the resulting models. As a result, we successfully train a ViT model with two billion parameters, which attains a new state-of-the-art on ImageNet of 90.45% top-1 accuracy. The model also performs well on few-shot learning, for example, attaining 84.86% top-1 accuracy on ImageNet with only 10 examples per class.

翻译：视觉变换器(VIT)等以关注为基础的神经网络最近在许多计算机视觉基准上取得了最先进的结果。规模是取得优异结果的一个主要要素。因此, 理解模型的缩放属性是有效设计后代的关键。虽然已经研究过放大变换器语言模型的法律, 但不清楚如何扩大。为了解决这个问题, 我们向上和向下放大VIT模型和数据, 并描述错误率、数据和计算之间的关系。与此同时, 我们完善了VIT的架构和培训, 减少了记忆消耗, 提高了所生成模型的精度。因此, 我们成功地培训了具有20亿参数的VIT模型, 从而在图像网络上实现了90.45%最高至1精确度的新状态。该模型还很好地运用了几分数的学习方法, 例如, 在图像网络上达到84.86%的最高和1级的精度, 每类只有10个例子。

0

相关内容

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【ICML2021】PoolingFormer：具有池化注意力机制的长序列输入模型

专知会员服务

35+阅读 · 2021年7月25日

【CVPR2021】预训练图像处理Transformer

专知会员服务

45+阅读 · 2021年6月1日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

2019年机器学习框架回顾

2019年机器学习框架回顾

专知会员服务

36+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

移动端机器学习资源合集

移动端机器学习资源合集

专知

8+阅读 · 2019年4月21日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

53+阅读 · 2019年4月12日

三分钟带你读懂 BERT

三分钟带你读懂 BERT

AI研习社

3+阅读 · 2019年3月20日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

一文带你读懂计算机视觉

一文带你读懂计算机视觉

AI研习社

9+阅读 · 2018年12月10日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【推荐】深度学习目标检测全面综述

【推荐】深度学习目标检测全面综述

机器学习研究会

21+阅读 · 2017年9月13日

【推荐】TensorFlow手把手CNN实践指南

【推荐】TensorFlow手把手CNN实践指南

机器学习研究会

5+阅读 · 2017年8月17日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

Arxiv

0+阅读 · 2021年8月3日

Semi-Supervising Learning, Transfer Learning, and Knowledge Distillation with SimCLR

Arxiv

0+阅读 · 2021年8月2日

Vision Xformers: Efficient Attention for Image Classification

Arxiv

0+阅读 · 2021年8月1日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

Arxiv

3+阅读 · 2019年5月28日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Area Attention

Arxiv

5+阅读 · 2019年2月5日

Doubly Attentive Transformer Machine Translation

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

Scaling Neural Machine Translation

Arxiv

3+阅读 · 2018年6月1日

Question Answering through Transfer Learning from Large Fine-grained Supervision Data

Arxiv

3+阅读 · 2018年5月31日

VIP会员

文章信息

相关主题

相关VIP内容

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【ICML2021】PoolingFormer：具有池化注意力机制的长序列输入模型

专知会员服务

35+阅读 · 2021年7月25日

【CVPR2021】预训练图像处理Transformer

专知会员服务

45+阅读 · 2021年6月1日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

2019年机器学习框架回顾

2019年机器学习框架回顾

专知会员服务

36+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

《实现协同自主：从人机协作到多智能体系统》最新190页

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

通信网络智能体白皮书V1.0，61页pdf

相关资讯

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

移动端机器学习资源合集

移动端机器学习资源合集

专知

8+阅读 · 2019年4月21日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

53+阅读 · 2019年4月12日

三分钟带你读懂 BERT

三分钟带你读懂 BERT

AI研习社

3+阅读 · 2019年3月20日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

一文带你读懂计算机视觉

一文带你读懂计算机视觉

AI研习社

9+阅读 · 2018年12月10日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【推荐】深度学习目标检测全面综述

【推荐】深度学习目标检测全面综述

机器学习研究会

21+阅读 · 2017年9月13日

【推荐】TensorFlow手把手CNN实践指南

【推荐】TensorFlow手把手CNN实践指南

机器学习研究会

5+阅读 · 2017年8月17日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

相关论文

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

Arxiv

0+阅读 · 2021年8月3日

Semi-Supervising Learning, Transfer Learning, and Knowledge Distillation with SimCLR

Arxiv

0+阅读 · 2021年8月2日

Vision Xformers: Efficient Attention for Image Classification

Arxiv

0+阅读 · 2021年8月1日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

Arxiv

3+阅读 · 2019年5月28日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Area Attention

Arxiv

5+阅读 · 2019年2月5日

Doubly Attentive Transformer Machine Translation

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

Scaling Neural Machine Translation

Arxiv

3+阅读 · 2018年6月1日

Question Answering through Transfer Learning from Large Fine-grained Supervision Data

Arxiv

3+阅读 · 2018年5月31日

微信扫码咨询专知VIP会员