【ICML2021】具有线性复杂度的Transformer的相对位置编码 - 专知VIP

会员服务 ·

3

Transformer · 相对位置编码 ·

2021 年 5 月 20 日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

由于线性空间和时间的复杂性，Transformer模型的最新进展允许前所未有的序列长度。同时，相对位置编码(relative position encoding, RPE)被认为是一种利用滞后而不是绝对位置进行推理的方法。尽管如此，RPE还不能用于Transformer最近的线性变体，因为它需要显式计算注意力矩阵，而这正是这些方法所避免的。在本文中，我们填补了这一缺口，并提出了随机位置编码作为生成PE的一种方法，该方法可以用来替代经典的加性(正弦)PE，并且可以证明其行为类似于RPE。其主要理论贡献是将位置编码与相关高斯过程的交叉协方差结构联系起来。我们在Long-Range Arena基准测试和音乐生成上证明了我们的方法的性能。

https://www.zhuanzhi.ai/paper/e42297b68bb088dc94c114e44992cea1

成为VIP会员查看完整内容

25

相关内容

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【ICML2021】互信息分解估计的对比表示学习

专知会员服务

44+阅读 · 2021年7月1日

【ICML2021】SparseBERT: 自注意力机制的重要性分析再思考

专知会员服务

37+阅读 · 2021年5月15日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

WWW 2020 开源论文 | 异构图Transformer

WWW 2020 开源论文 | 异构图Transformer

PaperWeekly

13+阅读 · 2020年4月3日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

微软亚研：对深度神经网络中空间注意力机制的经验性研究

微软亚研：对深度神经网络中空间注意力机制的经验性研究

机器之心

6+阅读 · 2019年4月15日

Transformer-XL：释放注意力模型的潜力

Transformer-XL：释放注意力模型的潜力

谷歌开发者

31+阅读 · 2019年2月19日

CMU、谷歌提出Transformer-XL：学习超长上下文关系

CMU、谷歌提出Transformer-XL：学习超长上下文关系

机器之心

9+阅读 · 2019年1月18日

Relative Positional Encoding for Transformers with Linear Complexity

Arxiv

8+阅读 · 2021年5月18日

Colorization Transformer

Arxiv

9+阅读 · 2021年2月8日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

VIP会员

相关主题

相对位置编码

相关VIP内容

【ICML2021】互信息分解估计的对比表示学习

专知会员服务

44+阅读 · 2021年7月1日

【ICML2021】SparseBERT: 自注意力机制的重要性分析再思考

专知会员服务

37+阅读 · 2021年5月15日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

热门VIP内容

开通专知VIP会员享更多权益服务

美海军作战管理系统：变革战场空间的二十年

《任务与武器驱动美海军舰队设计》报告

俄罗斯“沙希德”/“天竺葵”攻击无人机

《利用动态图对网络攻击进行建模与仿真：在云安全评估中的应用》90页

相关资讯

WWW 2020 开源论文 | 异构图Transformer

WWW 2020 开源论文 | 异构图Transformer

PaperWeekly

13+阅读 · 2020年4月3日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

微软亚研：对深度神经网络中空间注意力机制的经验性研究

微软亚研：对深度神经网络中空间注意力机制的经验性研究

机器之心

6+阅读 · 2019年4月15日

Transformer-XL：释放注意力模型的潜力

Transformer-XL：释放注意力模型的潜力

谷歌开发者

31+阅读 · 2019年2月19日

CMU、谷歌提出Transformer-XL：学习超长上下文关系

CMU、谷歌提出Transformer-XL：学习超长上下文关系

机器之心

9+阅读 · 2019年1月18日

相关论文

Relative Positional Encoding for Transformers with Linear Complexity

Arxiv

8+阅读 · 2021年5月18日

Colorization Transformer

Arxiv

9+阅读 · 2021年2月8日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

微信扫码咨询专知VIP会员