Recently, pre-training multilingual language models has shown great potential in learning multilingual representation, a crucial topic of natural language processing. Prior works generally use a single mixed attention (MA) module, following TLM (Conneau and Lample, 2019), for attending to intra-lingual and cross-lingual contexts equivalently and simultaneously. In this paper, we propose a network named decomposed attention (DA) as a replacement of MA. The DA consists of an intra-lingual attention (IA) and a cross-lingual attention (CA), which model intralingual and cross-lingual supervisions respectively. In addition, we introduce a language-adaptive re-weighting strategy during training to further boost the model's performance. Experiments on various cross-lingual natural language understanding (NLU) tasks show that the proposed architecture and learning strategy significantly improve the model's cross-lingual transferability.


翻译:最近,培训前多语文模式在学习多语种代表性方面显示出巨大的潜力,这是自然语言处理的一个关键主题,先前的工作通常在TLM(Conneau和Lample,2019年)之后使用一个单一的混合关注模块,以同时同等地处理语文内和跨语文背景,在本文件中,我们提议建立一个称为分解关注(DA)的网络,以取代MA。DA包括一种语言内关注(IA)和一种跨语文的关注(CA),分别作为语文内和跨语文监督的模型。此外,我们在培训期间采用了一种语言适应性再加权战略,以进一步提高该模型的性能。关于各种跨语文的自然语言理解(NLU)任务的实验表明,拟议的结构和学习战略大大改进了该模型的跨语文可转移性。

0
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
站在BERT肩膀上的NLP新秀们(PART II)
AINLP
35+阅读 · 2019年6月8日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
一文纵览 Vision-and-Language 领域最新研究与进展
AI科技评论
7+阅读 · 2019年5月14日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
新加坡科技设计大学杨杰博士莅临我校,并做了报告:Recent Advances in Sequence Labeling
黑龙江大学自然语言处理实验室
4+阅读 · 2018年9月13日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
13+阅读 · 2020年4月12日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关VIP内容
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
站在BERT肩膀上的NLP新秀们(PART II)
AINLP
35+阅读 · 2019年6月8日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
一文纵览 Vision-and-Language 领域最新研究与进展
AI科技评论
7+阅读 · 2019年5月14日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
新加坡科技设计大学杨杰博士莅临我校,并做了报告:Recent Advances in Sequence Labeling
黑龙江大学自然语言处理实验室
4+阅读 · 2018年9月13日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员