【AAAI2022】可解释性ViT登场，谷歌AI提出层次嵌套Transformer模型 - 专知VIP

会员服务 ·

3

AAAI 2022 · 可解释性 · Transformer · ViT (Vision Transformers) · 论文 ·

2022 年 1 月 28 日

【AAAI2022】可解释性ViT登场，谷歌AI提出层次嵌套Transformer模型

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文链接： https://www.zhuanzhi.ai/paper/05c2c9c5620a7ac93e61c1a76370e548 代码链接： https://github.com/google-research/nested-transformer

目前的ViT模型首先将输入的图像划分为图像块，然后使用类似于NLP模型中的方式对图像块提取特征。随后，使用多个自注意力层（self-attention）进行全局的信息交互，以实现长程的特征提取。最近的一些Transformer工作表明，ViT模型在大规模的标记数据集上可以超过卷积神经网络的精度，但是其在小数据集上进行训练时，优势并不明显。这可能是因为Transformer本身缺乏类似于卷积网络中局部性和平移等效性之类的归纳偏置。

目前已有一些工作对此进行改进，其中具有代表性的例如Transformer原作者Ashish Vaswani发表在CVPR2021上的HaloNets[1]，以及微软亚研院获得ICCV2021 Best Paper的Swin Transformer[2]。这些工作都提出了一些特殊操作对自注意力机制进行了修改，先通过对局部块进行关注，随后进行块与块的信息交互。本文提出的NesT采用另一种方式进行改进，即保证原自注意力机制不变，引入聚合函数（block aggregation function）来提高模型的整体性能，同时可以为模型带来一定的可解释性。

本文对这种层次化的设计进行了分析和改进，作者认为在Transformer模型中通过在非重叠图像块上提取特征，并以分层次的形式将其进行聚合是这种层次化设计的精髓，其中对多个块特征融合的函数（block aggregation function）可以促进跨区域非局部信息的交互。基于这一理念，本文提出了一种层次化嵌套Transformer（NesT），其仅需要在原始ViT代码上修改几行就可以实现。

相比普通的ViT模型，NesT还有以下三个明显优势：

NesT拥有更快的收敛速度，所需的训练数据量也很小，可以同时在ImageNet和小型数据集（如CIFAR）上得到良好的泛化性能。
将NesT扩展到图像生成任务上，在生成速度上相比之前的方法快了近8倍。
在NesT中，通过嵌套的层次结构可以实现特征学习和抽象过程的解藕，同时这种结构可以天然的类比于决策树过程，本文基于此提出了一种全新的模型可解释方法CradCAT，可以对图像的显著性区域进行定位。

成为VIP会员查看完整内容

29

相关内容

AAAI 2022

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

专知会员服务

18+阅读 · 2021年12月8日

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

专知会员服务

27+阅读 · 2021年12月3日

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知会员服务

46+阅读 · 2021年11月24日

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

专知会员服务

20+阅读 · 2021年10月26日

【NeurIPS 2021】强大图表示的重建

专知会员服务

17+阅读 · 2021年10月4日

Google-EfficientNet v2来了！更快，更小，更强！

Google-EfficientNet v2来了！更快，更小，更强！

专知会员服务

19+阅读 · 2021年4月4日

【AAAI2021】利用先验知识对场景图进行分类

【AAAI2021】利用先验知识对场景图进行分类

专知会员服务

61+阅读 · 2020年12月3日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

ViTAE：引入归纳偏置，浅层用CNN，深层用self-attention

ViTAE：引入归纳偏置，浅层用CNN，深层用self-attention

极市平台

3+阅读 · 2022年2月11日

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

CVer

2+阅读 · 2022年2月8日

全新轻量级ViT！LVT：具有增强自注意力的Lite视觉Transformer

全新轻量级ViT！LVT：具有增强自注意力的Lite视觉Transformer

CVer

0+阅读 · 2021年12月23日

AAAI 2022 | 腾讯优图提出Evo-ViT：高性能Transformer加速方法

AAAI 2022 | 腾讯优图提出Evo-ViT：高性能Transformer加速方法

CVer

0+阅读 · 2021年12月2日

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知

0+阅读 · 2021年11月24日

SoCo: 通过目标级对比学习实现整个目标检测模型的预训练

SoCo: 通过目标级对比学习实现整个目标检测模型的预训练

极市平台

1+阅读 · 2021年11月16日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

极市平台

0+阅读 · 2021年10月21日

CNN+Transformer=Better，国科大&华为&鹏城实验室提出Conformer，84.1% Top-1准确率

CNN+Transformer=Better，国科大&华为&鹏城实验室提出Conformer，84.1% Top-1准确率

极市平台

0+阅读 · 2021年8月16日

谷歌提出「卷积+注意力」新模型，超越ResNet最强变体！

谷歌提出「卷积+注意力」新模型，超越ResNet最强变体！

量子位

1+阅读 · 2021年6月25日

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

机器之心

1+阅读 · 2021年3月16日

曲面上图像处理的非局部变分模型与算法

国家自然科学基金

0+阅读 · 2017年12月31日

基于深度信念网络的高光谱遥感影像变化检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

高光谱图像稀疏解混模型及其快速算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向服务集成体系结构层次化设计与可执行建模

国家自然科学基金

3+阅读 · 2013年12月31日

融合多尺度上下文的图像标注研究

国家自然科学基金

2+阅读 · 2013年12月31日

高光谱遥感影像分解模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏分解和非局部平均的乘性噪声图像滤波

国家自然科学基金

0+阅读 · 2012年12月31日

基于全投影域的医学图像多分辨率非刚性配准方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

空-谱融合高光谱遥感影像混合像元稀疏分解与空间定位

国家自然科学基金

1+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

3D Parametric Wireframe Extraction Based on Distance Fields

Arxiv

0+阅读 · 2022年4月20日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Arxiv

0+阅读 · 2022年4月19日

Neural Space-filling Curves

Arxiv

0+阅读 · 2022年4月18日

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Arxiv

1+阅读 · 2022年4月18日

A New Dynamic Algorithm for Densest Subhypergraphs

Arxiv

0+阅读 · 2022年4月17日

Convergence analysis of a two-grid method for nonsymmetric positive definite problems

Arxiv

0+阅读 · 2022年4月17日

Population-level Task-evoked Functional Connectivity

Arxiv

0+阅读 · 2022年4月16日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

VIP会员

相关主题

ViT (Vision Transformers)

相关VIP内容

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

专知会员服务

18+阅读 · 2021年12月8日

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

专知会员服务

27+阅读 · 2021年12月3日

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知会员服务

46+阅读 · 2021年11月24日

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

专知会员服务

20+阅读 · 2021年10月26日

【NeurIPS 2021】强大图表示的重建

专知会员服务

17+阅读 · 2021年10月4日

Google-EfficientNet v2来了！更快，更小，更强！

Google-EfficientNet v2来了！更快，更小，更强！

专知会员服务

19+阅读 · 2021年4月4日

【AAAI2021】利用先验知识对场景图进行分类

【AAAI2021】利用先验知识对场景图进行分类

专知会员服务

61+阅读 · 2020年12月3日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

热门VIP内容

开通专知VIP会员享更多权益服务

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

《实现协同自主：从人机协作到多智能体系统》最新190页

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

通信网络智能体白皮书V1.0，61页pdf

相关资讯

ViTAE：引入归纳偏置，浅层用CNN，深层用self-attention

ViTAE：引入归纳偏置，浅层用CNN，深层用self-attention

极市平台

3+阅读 · 2022年2月11日

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

CVer

2+阅读 · 2022年2月8日

全新轻量级ViT！LVT：具有增强自注意力的Lite视觉Transformer

全新轻量级ViT！LVT：具有增强自注意力的Lite视觉Transformer

CVer

0+阅读 · 2021年12月23日

AAAI 2022 | 腾讯优图提出Evo-ViT：高性能Transformer加速方法

AAAI 2022 | 腾讯优图提出Evo-ViT：高性能Transformer加速方法

CVer

0+阅读 · 2021年12月2日

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知

0+阅读 · 2021年11月24日

SoCo: 通过目标级对比学习实现整个目标检测模型的预训练

SoCo: 通过目标级对比学习实现整个目标检测模型的预训练

极市平台

1+阅读 · 2021年11月16日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

极市平台

0+阅读 · 2021年10月21日

CNN+Transformer=Better，国科大&华为&鹏城实验室提出Conformer，84.1% Top-1准确率

CNN+Transformer=Better，国科大&华为&鹏城实验室提出Conformer，84.1% Top-1准确率

极市平台

0+阅读 · 2021年8月16日

谷歌提出「卷积+注意力」新模型，超越ResNet最强变体！

谷歌提出「卷积+注意力」新模型，超越ResNet最强变体！

量子位

1+阅读 · 2021年6月25日

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

机器之心

1+阅读 · 2021年3月16日

相关基金

曲面上图像处理的非局部变分模型与算法

国家自然科学基金

0+阅读 · 2017年12月31日

基于深度信念网络的高光谱遥感影像变化检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

高光谱图像稀疏解混模型及其快速算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向服务集成体系结构层次化设计与可执行建模

国家自然科学基金

3+阅读 · 2013年12月31日

融合多尺度上下文的图像标注研究

国家自然科学基金

2+阅读 · 2013年12月31日

高光谱遥感影像分解模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏分解和非局部平均的乘性噪声图像滤波

国家自然科学基金

0+阅读 · 2012年12月31日

基于全投影域的医学图像多分辨率非刚性配准方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

空-谱融合高光谱遥感影像混合像元稀疏分解与空间定位

国家自然科学基金

1+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

相关论文

3D Parametric Wireframe Extraction Based on Distance Fields

Arxiv

0+阅读 · 2022年4月20日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Arxiv

0+阅读 · 2022年4月19日

Neural Space-filling Curves

Arxiv

0+阅读 · 2022年4月18日

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Arxiv

1+阅读 · 2022年4月18日

A New Dynamic Algorithm for Densest Subhypergraphs

Arxiv

0+阅读 · 2022年4月17日

Convergence analysis of a two-grid method for nonsymmetric positive definite problems

Arxiv

0+阅读 · 2022年4月17日

Population-level Task-evoked Functional Connectivity

Arxiv

0+阅读 · 2022年4月16日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

微信扫码咨询专知VIP会员