当 Transformers 在各种计算机视觉应用中迅速获得普及时,对它们内部机制的事后(post-hoc)解释大多仍是未探索的领域。视觉 Transformers 通过将图像区域表示为转换后的 tokens 并通过注意力权重(integrating them via attention weights)整合它们来提取视觉信息。然而,现有的事后解释方法仅考虑这些注意力权重,忽略了转换后 tokens 中的关键信息,这无法准确说明模型预测背后的理由。为了将 token 转换的影响纳入解释中,我们提出了一种新颖的事后解释方法 TokenTM,该方法利用我们引入的 token 转换效应的度量。具体来说,我们通过测量 token 长度的变化以及它们在转换前后方向上的相关性来量化 token 转换效应。此外,我们开发了初始化和聚合规则,以整合所有层次上的注意力权重和 token 转换效应,捕捉模型中全面的 token 贡献。在分割和扰动测试上的实验结果显示,我们提出的 TokenTM 方法与最先进的视觉 Transformer 解释方法相比具有优越性。 https://www.zhuanzhi.ai/paper/a67efdc07e9b3bbcefb222b30d45b1df

成为VIP会员查看完整内容
20

相关内容

【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
22+阅读 · 2023年3月30日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
45+阅读 · 2022年7月10日
【AAAI2022】基于双流更新的视觉Transformer动态加速方法
专知会员服务
23+阅读 · 2021年12月11日
[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
15+阅读 · 2021年11月14日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
324+阅读 · 2023年3月31日
VIP会员
相关VIP内容
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
22+阅读 · 2023年3月30日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
45+阅读 · 2022年7月10日
【AAAI2022】基于双流更新的视觉Transformer动态加速方法
专知会员服务
23+阅读 · 2021年12月11日
[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
15+阅读 · 2021年11月14日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员