The transformer has been shown to outperform recurrent neural network-based sequence-to-sequence models in various word-level NLP tasks. Yet for character-level transduction tasks, e.g. morphological inflection generation and historical text normalization, there are few works that outperform recurrent models using the transformer. In an empirical study, we uncover that, in contrast to recurrent sequence-to-sequence models, the batch size plays a crucial role in the performance of the transformer on character-level tasks, and we show that with a large enough batch size, the transformer does indeed outperform recurrent models. We also introduce a simple technique to handle feature-guided character-level transduction that further improves performance. With these insights, we achieve state-of-the-art performance on morphological inflection and historical text normalization. We also show that the transformer outperforms a strong baseline on two other character-level transduction tasks: grapheme-to-phoneme conversion and transliteration.


翻译:变压器在各种单词级 NLP 任务中表现优于经常性神经网络序列到序列模型。 然而,在字符级转换任务中,例如形态渗透生成和历史文本正常化方面,几乎没有什么作品能够比变压器的经常模型更优异。在一项经验研究中,我们发现,与经常序列到序列模型相比,批量大小在字符级任务变压器的运行中发挥着关键作用,而且我们显示,由于批量大小足够大,变压器确实优于经常模型。我们还引入了一种简单技术,处理地貌引导字符级转换,从而进一步提高性能。有了这些洞察,我们就能在形态变化和历史文本正常化方面实现最先进的性能。我们还表明,变压器在另外两个特性级转换任务上,即图形式对电话转换和转换,比重基线要强。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
知识图谱本体结构构建论文合集
专知会员服务
102+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Github项目推荐 | AutoML与轻量模型列表
AI研习社
9+阅读 · 2019年5月4日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
知识图谱本体结构构建论文合集
专知会员服务
102+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Github项目推荐 | AutoML与轻量模型列表
AI研习社
9+阅读 · 2019年5月4日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员