愿景变异器中地方-全球互动的轴扩展窗口 (Axially Expanded Windows for Local-Global Interaction in Vision Transformers) - 专知论文

会员服务 ·

0

Performer · Vision · INTERACT · Attention · 变换 ·

2022 年 9 月 19 日

Axially Expanded Windows for Local-Global Interaction in Vision Transformers

翻译：愿景变异器中地方-全球互动的轴扩展窗口

Zhemin Zhang,Xun Gong

Recently, Transformers have shown promising performance in various vision tasks. A challenging issue in Transformer design is that global self-attention is very expensive to compute, especially for the high-resolution vision tasks. Local self-attention performs attention computation within a local region to improve its efficiency, which leads to their receptive fields in a single attention layer are not large enough, resulting in insufficient context modeling. When observing a scene, humans usually focus on a local region while attending to non-attentional regions at coarse granularity. Based on this observation, we develop the axially expanded window self-attention mechanism that performs fine-grained self-attention within the local window and coarse-grained self-attention in the horizontal and vertical axes, and thus can effectively capturing both short- and long-range visual dependencies.

翻译：最近,变异器在各种愿景任务中表现出了有希望的绩效。变异器设计中一个具有挑战性的问题是,全球自我关注在计算上非常昂贵,特别是高分辨率的愿景任务。本地自我关注在当地区域内部进行关注计算,以提高其效率,从而导致在单一关注层中形成其可容纳的字段,但规模不够大,导致环境模型不足。在观察场景时,人类通常集中在一个本地区域,同时在粗颗粒状态下关注非保护区域。基于这一观察,我们开发了一个逐步扩大的窗口自我关注机制,在当地窗口内进行精细的自我关注,并在横向和垂直轴线上进行粗略的自我关注,从而能够有效地捕捉到短期和长期的视觉依赖性。

0

相关内容

Performer

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

【超赞的#C++#速查&信息图】“hacking c++ - Cheat Sheets & Infographics”

【超赞的#C++#速查&信息图】“hacking c++ - Cheat Sheets & Infographics”

专知会员服务

30+阅读 · 2022年3月8日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

80+阅读 · 2020年7月26日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

IEEE TII Call For Papers

IEEE TII Call For Papers

CCF多媒体专委会

3+阅读 · 2022年3月24日

ACM TOMM Call for Papers

ACM TOMM Call for Papers

CCF多媒体专委会

2+阅读 · 2022年3月23日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【推荐】用Python/OpenCV实现增强现实

【推荐】用Python/OpenCV实现增强现实

机器学习研究会

15+阅读 · 2017年11月16日

Progerin/PrelaminA诱发早老症的蛋白质组学研究

国家自然科学基金

1+阅读 · 2015年12月31日

内质网蛋白MoPer1及其互作蛋白调控稻瘟病菌生长发育和致病的分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

TUFM调控EMT及肺癌浸润转移的作用及其机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

功能性遗传变异调控BARD1/BRCA1泛素化通路的机制及与儿童神经母细胞瘤的关联研究

国家自然科学基金

0+阅读 · 2013年12月31日

Wnt/β-catenin通路介导RELMβ调控糖尿病肾病系膜细胞增殖的机制研究

国家自然科学基金

1+阅读 · 2013年12月31日

Kronheimer-Nakajima quiver 模空间与有理曲面

国家自然科学基金

1+阅读 · 2013年12月31日

椿皮中苦木内酯类成分抑制HER2的作用机制和构效关系研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于Decorin基因甲基化调控的非小细胞肺癌转移的分子机制

国家自然科学基金

0+阅读 · 2011年12月31日

TR3相互作用新蛋白机理研究

国家自然科学基金

1+阅读 · 2008年12月31日

洋葱新病原细菌Burkholderia cenocepacia的致病基因及检测技术研究

国家自然科学基金

0+阅读 · 2008年12月31日

ViT-CAT: Parallel Vision Transformers with Cross Attention Fusion for Popularity Prediction in MEC Networks

Arxiv

0+阅读 · 2022年10月27日

TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction

Arxiv

0+阅读 · 2022年10月26日

GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online Action Prediction

Arxiv

0+阅读 · 2022年10月24日

In-N-Out Generative Learning for Dense Unsupervised Video Segmentation

Arxiv

0+阅读 · 2022年10月24日

LCPFormer: Towards Effective 3D Point Cloud Analysis via Local Context Propagation in Transformers

Arxiv

0+阅读 · 2022年10月23日

UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery Detection

Arxiv

0+阅读 · 2022年10月23日

Boosting vision transformers for image retrieval

Arxiv

0+阅读 · 2022年10月21日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

Cross-Modal Self-Attention Network for Referring Image Segmentation

Cross-Modal Self-Attention Network for Referring Image Segmentation

Arxiv

18+阅读 · 2019年4月9日

Linguistically-Informed Self-Attention for Semantic Role Labeling

Arxiv

17+阅读 · 2018年8月28日

VIP会员

文章信息

相关主题

相关VIP内容

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

【超赞的#C++#速查&信息图】“hacking c++ - Cheat Sheets & Infographics”

【超赞的#C++#速查&信息图】“hacking c++ - Cheat Sheets & Infographics”

专知会员服务

30+阅读 · 2022年3月8日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

80+阅读 · 2020年7月26日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

生成模型中持续学习的综合综述

【斯坦福博士论文】通过以人为本的自然语言界面拓展 AI 的可及性

【新书】《LangChain生成式AI实战：使用 Python 与 LangGraph 构建大语言模型应用与高级智能体》

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

IEEE TII Call For Papers

IEEE TII Call For Papers

CCF多媒体专委会

3+阅读 · 2022年3月24日

ACM TOMM Call for Papers

ACM TOMM Call for Papers

CCF多媒体专委会

2+阅读 · 2022年3月23日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【推荐】用Python/OpenCV实现增强现实

【推荐】用Python/OpenCV实现增强现实

机器学习研究会

15+阅读 · 2017年11月16日

相关论文

ViT-CAT: Parallel Vision Transformers with Cross Attention Fusion for Popularity Prediction in MEC Networks

Arxiv

0+阅读 · 2022年10月27日

TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction

Arxiv

0+阅读 · 2022年10月26日

GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online Action Prediction

Arxiv

0+阅读 · 2022年10月24日

In-N-Out Generative Learning for Dense Unsupervised Video Segmentation

Arxiv

0+阅读 · 2022年10月24日

LCPFormer: Towards Effective 3D Point Cloud Analysis via Local Context Propagation in Transformers

Arxiv

0+阅读 · 2022年10月23日

UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery Detection

Arxiv

0+阅读 · 2022年10月23日

Boosting vision transformers for image retrieval

Arxiv

0+阅读 · 2022年10月21日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

Cross-Modal Self-Attention Network for Referring Image Segmentation

Cross-Modal Self-Attention Network for Referring Image Segmentation

Arxiv

18+阅读 · 2019年4月9日

Linguistically-Informed Self-Attention for Semantic Role Labeling

Arxiv

17+阅读 · 2018年8月28日

相关基金

Progerin/PrelaminA诱发早老症的蛋白质组学研究

国家自然科学基金

1+阅读 · 2015年12月31日

内质网蛋白MoPer1及其互作蛋白调控稻瘟病菌生长发育和致病的分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

TUFM调控EMT及肺癌浸润转移的作用及其机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

功能性遗传变异调控BARD1/BRCA1泛素化通路的机制及与儿童神经母细胞瘤的关联研究

国家自然科学基金

0+阅读 · 2013年12月31日

Wnt/β-catenin通路介导RELMβ调控糖尿病肾病系膜细胞增殖的机制研究

国家自然科学基金

1+阅读 · 2013年12月31日

Kronheimer-Nakajima quiver 模空间与有理曲面

国家自然科学基金

1+阅读 · 2013年12月31日

椿皮中苦木内酯类成分抑制HER2的作用机制和构效关系研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于Decorin基因甲基化调控的非小细胞肺癌转移的分子机制

国家自然科学基金

0+阅读 · 2011年12月31日

TR3相互作用新蛋白机理研究

国家自然科学基金

1+阅读 · 2008年12月31日

洋葱新病原细菌Burkholderia cenocepacia的致病基因及检测技术研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员