【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力? - 专知

会员服务 ·

0

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

2022 年 5 月 31 日 专知

Transformers 在多种任务上取得了进展，但却受到二次元计算和内存复杂性的困扰。最近的工作提出了稀疏Transformers，关注稀疏图，以降低复杂性和保持强大的性能。虽然很有效，但是对于图需要多密集才能很好地执行的关键部分，还没有进行充分的探讨。在本文中，我们提出了归一化信息有效载荷(NIP)，这是一种测量图上信息传递的图评分函数，它提供了一个在性能和复杂性之间进行权衡的分析工具。在理论分析的指导下，我们提出了超立方Transformers，一个稀疏的Transformer，它在超立方体中建模标记交互，并显示与普通Transformer相当甚至更好的结果，同时在序列长度为N的情况下产生O(N log N)复杂度。在需要不同序列长度的任务上的实验为我们的图函数提供了验证。

https://www.zhuanzhi.ai/paper/8318e8175a50804b8f5157bbd8679a00

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“STRN” 就可以获取《【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

0

相关内容

超立方Transformers

超立方Transformers

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【ICML2021】PoolingFormer：具有池化注意力机制的长序列输入模型

专知会员服务

35+阅读 · 2021年7月25日

【ICML2021】弹性图神经网络

专知会员服务

37+阅读 · 2021年7月17日

【ICML2021】Lipschitz归一化自注意力以及应用到图神经网络

专知会员服务

30+阅读 · 2021年5月28日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

【ICML2022】深入探讨置换敏感图神经网络

【ICML2022】深入探讨置换敏感图神经网络

专知

0+阅读 · 2022年6月1日

【ICLR2022】Vision Transformer 模型工作机制的最新理论

【ICLR2022】Vision Transformer 模型工作机制的最新理论

专知

0+阅读 · 2022年2月19日

【AAAI2022】知识图谱表示模型是如何进行外推的?

【AAAI2022】知识图谱表示模型是如何进行外推的?

专知

1+阅读 · 2022年2月2日

【WSDM2022】具有分层注意力的图嵌入

【WSDM2022】具有分层注意力的图嵌入

专知

0+阅读 · 2021年11月17日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

考虑硅通孔热应力的静态时序分析

国家自然科学基金

0+阅读 · 2015年12月31日

车轮双轴疲劳虚拟试验的胎-轮间载荷传递机理及模型

国家自然科学基金

0+阅读 · 2013年12月31日

基于关键词的关系数据库查询技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

多复变中的L2估计

国家自然科学基金

0+阅读 · 2012年12月31日

丘脑MGm核团在注意和记忆中的作用及其机制

国家自然科学基金

0+阅读 · 2012年12月31日

On the Universality of Langevin Diffusion for Private Euclidean (Convex) Optimization

On the Universality of Langevin Diffusion for Private Euclidean (Convex) Optimization

Arxiv

0+阅读 · 2022年7月28日

Improving Vision Transformers by Revisiting High-frequency Components

Arxiv

0+阅读 · 2022年7月27日

Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding

Arxiv

12+阅读 · 2021年12月30日

Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning

Arxiv

13+阅读 · 2021年4月7日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

VIP会员

相关主题

超立方Transformers

相关VIP内容

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【ICML2021】PoolingFormer：具有池化注意力机制的长序列输入模型

专知会员服务

35+阅读 · 2021年7月25日

【ICML2021】弹性图神经网络

专知会员服务

37+阅读 · 2021年7月17日

【ICML2021】Lipschitz归一化自注意力以及应用到图神经网络

专知会员服务

30+阅读 · 2021年5月28日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

《北约认知战概念报告》

【MIT博士论文】高效的视觉合成生成模型

美海军放弃星座级转而采用国家安全巡逻舰设计

相关资讯

【ICML2022】深入探讨置换敏感图神经网络

【ICML2022】深入探讨置换敏感图神经网络

专知

0+阅读 · 2022年6月1日

【ICLR2022】Vision Transformer 模型工作机制的最新理论

【ICLR2022】Vision Transformer 模型工作机制的最新理论

专知

0+阅读 · 2022年2月19日

【AAAI2022】知识图谱表示模型是如何进行外推的?

【AAAI2022】知识图谱表示模型是如何进行外推的?

专知

1+阅读 · 2022年2月2日

【WSDM2022】具有分层注意力的图嵌入

【WSDM2022】具有分层注意力的图嵌入

专知

0+阅读 · 2021年11月17日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

相关基金

考虑硅通孔热应力的静态时序分析

国家自然科学基金

0+阅读 · 2015年12月31日

车轮双轴疲劳虚拟试验的胎-轮间载荷传递机理及模型

国家自然科学基金

0+阅读 · 2013年12月31日

基于关键词的关系数据库查询技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

多复变中的L2估计

国家自然科学基金

0+阅读 · 2012年12月31日

丘脑MGm核团在注意和记忆中的作用及其机制

国家自然科学基金

0+阅读 · 2012年12月31日

相关论文

On the Universality of Langevin Diffusion for Private Euclidean (Convex) Optimization

On the Universality of Langevin Diffusion for Private Euclidean (Convex) Optimization

Arxiv

0+阅读 · 2022年7月28日

Improving Vision Transformers by Revisiting High-frequency Components

Arxiv

0+阅读 · 2022年7月27日

Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding

Arxiv

12+阅读 · 2021年12月30日

Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning

Arxiv

13+阅读 · 2021年4月7日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

大家都在搜

大型语言模型

蓝牙安全攻防

鹰眼科技：3D视觉

传统中医推拿

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员