Several studies have reported the inability of Transformer models to generalize compositionally, a key type of generalization in many NLP tasks such as semantic parsing. In this paper we explore the design space of Transformer models showing that the inductive biases given to the model by several design decisions significantly impact compositional generalization. Through this exploration, we identified Transformer configurations that generalize compositionally significantly better than previously reported in the literature in a diverse set of compositional tasks, and that achieve state-of-the-art results in a semantic parsing compositional generalization benchmark (COGS), and a string edit operation composition benchmark (PCFG).


翻译:一些研究报告说,变形模型无法对组成进行概括化,这是许多非产物分类等非产物分类任务中一种关键的一般化类型。在本文中,我们探索了变形模型的设计空间,表明若干设计决定给模型的暗示偏差显著地影响到组成上的概括化。 通过这一探索,我们确定了变形模型的配置,这些变形模型在多种组成任务中比文献中报告的范围要大得多,并在一个语义分类一般化基准(COGS)和一个字符串编辑操作构成基准(PCFG)中实现了最新的结果。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
278+阅读 · 2020年11月26日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
【EMNLP2020】自然语言处理模型可解释性预测,182页ppt
专知会员服务
50+阅读 · 2020年11月19日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
98+阅读 · 2020年8月30日
元学习与图神经网络逻辑推导,55页ppt
专知会员服务
127+阅读 · 2020年4月25日
BERT进展2019四篇必读论文
专知会员服务
66+阅读 · 2020年1月2日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Arxiv
1+阅读 · 2021年10月6日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
6+阅读 · 2019年3月19日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
278+阅读 · 2020年11月26日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
【EMNLP2020】自然语言处理模型可解释性预测,182页ppt
专知会员服务
50+阅读 · 2020年11月19日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
98+阅读 · 2020年8月30日
元学习与图神经网络逻辑推导,55页ppt
专知会员服务
127+阅读 · 2020年4月25日
BERT进展2019四篇必读论文
专知会员服务
66+阅读 · 2020年1月2日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Top
微信扫码咨询专知VIP会员