由于线性空间和时间的复杂性,Transformer模型的最新进展允许前所未有的序列长度。同时,相对位置编码(relative position encoding, RPE)被认为是一种利用滞后而不是绝对位置进行推理的方法。尽管如此,RPE还不能用于Transformer最近的线性变体,因为它需要显式计算注意力矩阵,而这正是这些方法所避免的。在本文中,我们填补了这一缺口,并提出了随机位置编码作为生成PE的一种方法,该方法可以用来替代经典的加性(正弦)PE,并且可以证明其行为类似于RPE。其主要理论贡献是将位置编码与相关高斯过程的交叉协方差结构联系起来。我们在Long-Range Arena基准测试和音乐生成上证明了我们的方法的性能。

https://www.zhuanzhi.ai/paper/e42297b68bb088dc94c114e44992cea1

成为VIP会员查看完整内容
25

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
44+阅读 · 2021年7月1日
专知会员服务
37+阅读 · 2021年5月15日
专知会员服务
82+阅读 · 2021年5月10日
专知会员服务
63+阅读 · 2021年3月12日
WWW 2020 开源论文 | 异构图Transformer
PaperWeekly
13+阅读 · 2020年4月3日
【NeurIPS2019】图变换网络:Graph Transformer Network
Transformer-XL:释放注意力模型的潜力
谷歌开发者
31+阅读 · 2019年2月19日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
9+阅读 · 2019年1月18日
Arxiv
9+阅读 · 2021年2月8日
Arxiv
6+阅读 · 2019年7月11日
VIP会员
相关VIP内容
专知会员服务
44+阅读 · 2021年7月1日
专知会员服务
37+阅读 · 2021年5月15日
专知会员服务
82+阅读 · 2021年5月10日
专知会员服务
63+阅读 · 2021年3月12日
相关资讯
WWW 2020 开源论文 | 异构图Transformer
PaperWeekly
13+阅读 · 2020年4月3日
【NeurIPS2019】图变换网络:Graph Transformer Network
Transformer-XL:释放注意力模型的潜力
谷歌开发者
31+阅读 · 2019年2月19日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
9+阅读 · 2019年1月18日
相关论文
微信扫码咨询专知VIP会员