【ICLR2021】从理解到改进:序列到序列建模中的编码器特征融合

2021 年 2 月 13 日 专知

从理解到改进:序列到序列建模中的编码器特征融合

Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning


本文由腾讯AI Lab主导,与澳门大学、悉尼大学合作完成。编码器特征融合(EncoderFusion)是提升序列到序列建模中的经典技术之一。尽管其有效性已在各种自然语言处理(NLP)任务上得到的验证,但其原理及规律并没有被深入探究。


本文首先提出了细粒度层注意力模型来量化编码器每一层特征的贡献度,并在多个NLP任务(机器翻译、语法纠错、文本摘要)上进行分析,从而进一步理解EncoderFusion的本质。前人工作认为EncoderFusion主要利用嵌在编码器底层的词法和语法信息,而我们发现编码器词嵌入层比其他中间层更重要,并且始终受到解码器最上层的关注。基于该发现,我们提出了一种简单直接的融合方法,即只融合编码器词嵌入层到解码器输出层。


实验结果表明,该方法在多种序列建模任务上都优于已有融合方法,并使翻译任务在WMT16罗英和WMT14英法数据集上取得SOTA性能。分析进一步表明,SurfaceFusion能帮助模型学到更具表现力的双语词嵌入。该工作对编码器特征融合的改进和使用有较强启发和指导意义。




https://openreview.net/forum?id=n1HD8M6WGn

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“编码器融合” 可以获取《【ICLR2021】从理解到改进:序列到序列建模中的编码器特征融合》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

专知会员服务
27+阅读 · 2021年5月2日
专知会员服务
15+阅读 · 2021年3月4日
【ICLR2021】通过多种自监督方式提升GAT中注意力
专知会员服务
43+阅读 · 2021年2月27日
专知会员服务
32+阅读 · 2021年2月21日
专知会员服务
17+阅读 · 2021年2月8日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
48+阅读 · 2021年2月7日
专知会员服务
20+阅读 · 2021年2月7日
专知会员服务
56+阅读 · 2021年1月26日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
【KDD2020-阿里】可调控的多兴趣推荐框架
专知
9+阅读 · 2020年8月11日
深度学习模型可解释性的研究进展
专知
22+阅读 · 2020年8月1日
【KDD2020】图神经网络生成式预训练
专知
21+阅读 · 2020年7月3日
【ICML2020】对比多视角表示学习
专知
18+阅读 · 2020年6月28日
Arxiv
15+阅读 · 2020年2月5日
Sparse Sequence-to-Sequence Models
Arxiv
5+阅读 · 2019年5月14日
Arxiv
13+阅读 · 2018年4月18日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
专知会员服务
27+阅读 · 2021年5月2日
专知会员服务
15+阅读 · 2021年3月4日
【ICLR2021】通过多种自监督方式提升GAT中注意力
专知会员服务
43+阅读 · 2021年2月27日
专知会员服务
32+阅读 · 2021年2月21日
专知会员服务
17+阅读 · 2021年2月8日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
48+阅读 · 2021年2月7日
专知会员服务
20+阅读 · 2021年2月7日
专知会员服务
56+阅读 · 2021年1月26日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
Top
微信扫码咨询专知VIP会员