Self-attention network (SAN) has recently attracted increasing interest due to its fully parallelized computation and flexibility in modeling dependencies. It can be further enhanced with multi-headed attention mechanism by allowing the model to jointly attend to information from different representation subspaces at different positions (Vaswani et al., 2017). In this work, we propose a novel convolutional self-attention network (CSAN), which offers SAN the abilities to 1) capture neighboring dependencies, and 2) model the interaction between multiple attention heads. Experimental results on WMT14 English-to-German translation task demonstrate that the proposed approach outperforms both the strong Transformer baseline and other existing works on enhancing the locality of SAN. Comparing with previous work, our model does not introduce any new parameters.


翻译:自控网络(自控网络)最近因其完全平行的计算和在建模依赖性方面的灵活性而引起越来越多的兴趣,通过多头关注机制可以进一步加强这一网络,让该模式能够联合关注不同职位上不同代表分空间的信息(Vaswani等人,2017年)。在这项工作中,我们提议建立一个新的革命自控网络(CSAN),让SAN有能力1 捕捉相邻的依赖性,2 模拟多个关注头之间的互动。WMT14英文对德文翻译任务的实验结果表明,拟议方法优于强大的变换器基线和其他现有工程来提升自控网络的地理位置。 与以往的工作相比,我们的模式没有引入任何新的参数。

6
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
82+阅读 · 2020年6月21日
专知会员服务
59+阅读 · 2020年3月19日
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
65+阅读 · 2020年2月29日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
4+阅读 · 2017年7月25日
VIP会员
Top
微信扫码咨询专知VIP会员