Convolutional neural networks (CNNs) have so far been the de-facto model for visual data. Recent work has shown that (Vision) Transformer models (ViT) can achieve comparable or even superior performance on image classification tasks. This raises a central question: how are Vision Transformers solving these tasks? Are they acting like convolutional networks, or learning entirely different visual representations? Analyzing the internal representation structure of ViTs and CNNs on image classification benchmarks, we find striking differences between the two architectures, such as ViT having more uniform representations across all layers. We explore how these differences arise, finding crucial roles played by self-attention, which enables early aggregation of global information, and ViT residual connections, which strongly propagate features from lower to higher layers. We study the ramifications for spatial localization, demonstrating ViTs successfully preserve input spatial information, with noticeable effects from different classification methods. Finally, we study the effect of (pretraining) dataset scale on intermediate features and transfer learning, and conclude with a discussion on connections to new architectures such as the MLP-Mixer.


翻译:至今为止,革命性神经网络(CNNs)一直是视觉数据的实际模型。最近的工作表明(Vision)变异模型(VIT)在图像分类任务上能够取得可比甚至优异的性能。这提出了一个中心问题:愿景变异者如何解决这些任务?它们的行为是像革命网络一样,还是学习完全不同的视觉表现?分析VIT和CNN的图像分类基准的内部代表结构,我们发现两个结构之间的显著差异,例如ViT在所有层次上都有更加一致的表述。我们探索这些差异是如何产生的,发现自我关注所发挥的关键作用,从而能够及早汇总全球信息,以及ViT的剩余连接,这些连接从下层到上层有力地传播各种特征。我们研究空间定位的影响,展示ViTs成功地保存了输入空间信息,以及不同分类方法的显著影响。最后,我们研究(预先培训)数据集比例对中间特征和传输学习的影响,并最后讨论与MLP-Mixer等新结构的连接。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年7月30日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Tensorflow卷积神经网络
全球人工智能
13+阅读 · 2017年10月14日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
Arxiv
38+阅读 · 2020年12月2日
Arxiv
15+阅读 · 2020年2月5日
Geometric Graph Convolutional Neural Networks
Arxiv
10+阅读 · 2019年9月11日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
31+阅读 · 2018年11月13日
Arxiv
23+阅读 · 2018年10月1日
VIP会员
相关VIP内容
专知会员服务
29+阅读 · 2021年7月30日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Tensorflow卷积神经网络
全球人工智能
13+阅读 · 2017年10月14日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
Top
微信扫码咨询专知VIP会员