Transformer-based models are not efficient in processing long sequences due to the quadratic space and time complexity of the self-attention modules. To address this limitation, Linformer and Informer are proposed to reduce the quadratic complexity to linear (modulo logarithmic factors) via low-dimensional projection and row selection respectively. These two models are intrinsically connected, and to understand their connection, we introduce a theoretical framework of matrix sketching. Based on the theoretical analysis, we propose Skeinformer to accelerate self-attention and further improve the accuracy of matrix approximation to self-attention with three carefully designed components: column sampling, adaptive row normalization and pilot sampling reutilization. Experiments on the Long Range Arena (LRA) benchmark demonstrate that our methods outperform alternatives with a consistently smaller time/space footprint.


翻译:以变换器为基础的模型在处理长序列方面效率不高,因为自留模块具有四边空间和时间复杂性。为解决这一局限性,建议Linfer和Ininfer分别通过低维投影和行选,将四边复杂程度降低到线性(modulo对数系数),这两个模型有着内在的联系,并且为了理解它们之间的联系,我们引入了一个矩阵草图的理论框架。根据理论分析,我们建议Skeinrent加快自留,进一步提高自留矩阵近似的准确性,并采用三个精心设计的部件:列取样、适应性行正常化和试点采样再利用。对长距离(LArena)基准的实验表明,我们的方法在时间/空间足迹上持续较小,优于其他方法。

0
下载
关闭预览

相关内容

【NLPCC2020-微软】自然语言处理机器推理,124页ppt
专知会员服务
46+阅读 · 2020年10月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
196+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
保序最优传输:Order-preserving Optimal Transport
我爱读PAMI
6+阅读 · 2018年9月16日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关VIP内容
【NLPCC2020-微软】自然语言处理机器推理,124页ppt
专知会员服务
46+阅读 · 2020年10月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
196+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
保序最优传输:Order-preserving Optimal Transport
我爱读PAMI
6+阅读 · 2018年9月16日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
Top
微信扫码咨询专知VIP会员