【CVPR2024】Token 转换的重要性：面向视觉 Transformer 的忠实事后解释 - 专知VIP

会员服务 ·

14

CVPR 2024 · Transformer · 可解释性 ·

【CVPR2024】Token 转换的重要性：面向视觉 Transformer 的忠实事后解释

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

当 Transformers 在各种计算机视觉应用中迅速获得普及时，对它们内部机制的事后(post-hoc)解释大多仍是未探索的领域。视觉 Transformers 通过将图像区域表示为转换后的 tokens 并通过注意力权重(integrating them via attention weights)整合它们来提取视觉信息。然而，现有的事后解释方法仅考虑这些注意力权重，忽略了转换后 tokens 中的关键信息，这无法准确说明模型预测背后的理由。为了将 token 转换的影响纳入解释中，我们提出了一种新颖的事后解释方法 TokenTM，该方法利用我们引入的 token 转换效应的度量。具体来说，我们通过测量 token 长度的变化以及它们在转换前后方向上的相关性来量化 token 转换效应。此外，我们开发了初始化和聚合规则，以整合所有层次上的注意力权重和 token 转换效应，捕捉模型中全面的 token 贡献。在分割和扰动测试上的实验结果显示，我们提出的 TokenTM 方法与最先进的视觉 Transformer 解释方法相比具有优越性。 https://www.zhuanzhi.ai/paper/a67efdc07e9b3bbcefb222b30d45b1df

成为VIP会员查看完整内容

20

相关内容

CVPR 2024

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

专知会员服务

22+阅读 · 2023年3月30日

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

专知会员服务

13+阅读 · 2022年10月5日

【NAACL2022】自然语言处理的对比数据与学习

【NAACL2022】自然语言处理的对比数据与学习

专知会员服务

45+阅读 · 2022年7月10日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知会员服务

24+阅读 · 2022年5月30日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

23+阅读 · 2021年12月11日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

15+阅读 · 2021年11月14日

【ICCV2021】残差注意力：一种简单但是有效的多标签图像识别方法

专知会员服务

15+阅读 · 2021年8月26日

【ICML2021】具有超参数重要性的可解释的自动图表示学习

专知会员服务

23+阅读 · 2021年7月18日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

25+阅读 · 2021年1月29日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

74+阅读 · 2020年8月30日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

Python图像处理，366页pdf，Image Operators Image Processing in Python

Python图像处理，366页pdf，Image Operators Image Processing in Python

专知

15+阅读 · 2020年7月23日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

10+阅读 · 2020年3月17日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

69+阅读 · 2020年2月29日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

244+阅读 · 2019年11月18日

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

PaperWeekly

20+阅读 · 2019年4月24日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

语义Web知识库补全关键技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息系统直接使用与间接使用—探索基于社会权力视角的前因及其对工作绩效的影响

国家自然科学基金

1+阅读 · 2015年12月31日

JAK/STAT/SOCS3信号通路介导卒中后认知损害的分子机制及中医“活血通络”法对其的干预研究

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的四元数小波彩色图像质量评价及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

IPixMatch: Boost Semi-supervised Semantic Segmentation with Inter-Pixel Relation

Arxiv

0+阅读 · 4月29日

Joint covariance properties under geometric image transformations for spatio-temporal receptive fields according to the generalized Gaussian derivative model for visual receptive fields

Arxiv

0+阅读 · 4月26日

DeLaM: A Dependent Layered Modal Type Theory for Meta-programming

Arxiv

0+阅读 · 4月25日

Multi-Scale Representations by Varying Window Attention for Semantic Segmentation

Arxiv

0+阅读 · 4月25日

CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions

Arxiv

0+阅读 · 4月25日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

70+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

135+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

324+阅读 · 2023年3月31日

A Survey of Deep Learning for Low-Shot Object Detection

Arxiv

21+阅读 · 2021年12月6日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

VIP会员

相关主题

相关VIP内容

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

专知会员服务

22+阅读 · 2023年3月30日

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

专知会员服务

13+阅读 · 2022年10月5日

【NAACL2022】自然语言处理的对比数据与学习

【NAACL2022】自然语言处理的对比数据与学习

专知会员服务

45+阅读 · 2022年7月10日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知会员服务

24+阅读 · 2022年5月30日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

23+阅读 · 2021年12月11日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

15+阅读 · 2021年11月14日

【ICCV2021】残差注意力：一种简单但是有效的多标签图像识别方法

专知会员服务

15+阅读 · 2021年8月26日

【ICML2021】具有超参数重要性的可解释的自动图表示学习

专知会员服务

23+阅读 · 2021年7月18日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

25+阅读 · 2021年1月29日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

74+阅读 · 2020年8月30日

热门VIP内容

相关资讯

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

Python图像处理，366页pdf，Image Operators Image Processing in Python

Python图像处理，366页pdf，Image Operators Image Processing in Python

专知

15+阅读 · 2020年7月23日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

10+阅读 · 2020年3月17日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

69+阅读 · 2020年2月29日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

244+阅读 · 2019年11月18日

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

PaperWeekly

20+阅读 · 2019年4月24日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息系统直接使用与间接使用—探索基于社会权力视角的前因及其对工作绩效的影响

国家自然科学基金

1+阅读 · 2015年12月31日

JAK/STAT/SOCS3信号通路介导卒中后认知损害的分子机制及中医“活血通络”法对其的干预研究

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的四元数小波彩色图像质量评价及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

IPixMatch: Boost Semi-supervised Semantic Segmentation with Inter-Pixel Relation

Arxiv

0+阅读 · 4月29日

Joint covariance properties under geometric image transformations for spatio-temporal receptive fields according to the generalized Gaussian derivative model for visual receptive fields

Arxiv

0+阅读 · 4月26日

DeLaM: A Dependent Layered Modal Type Theory for Meta-programming

Arxiv

0+阅读 · 4月25日

Multi-Scale Representations by Varying Window Attention for Semantic Segmentation

Arxiv

0+阅读 · 4月25日

CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions

Arxiv

0+阅读 · 4月25日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

70+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

135+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

324+阅读 · 2023年3月31日

A Survey of Deep Learning for Low-Shot Object Detection

Arxiv

21+阅读 · 2021年12月6日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

微信扫码咨询专知VIP会员