Since language models are used to model a wide variety of languages, it is natural to ask whether the neural architectures used for the task have inductive biases towards modeling particular types of languages. Investigation of these biases has proved complicated due to the many variables that appear in the experimental setup. Languages vary in many typological dimensions, and it is difficult to single out one or two to investigate without the others acting as confounders. We propose a novel method for investigating the inductive biases of language models using artificial languages. These languages are constructed to allow us to create parallel corpora across languages that differ only in the typological feature being investigated, such as word order. We then use them to train and test language models. This constitutes a fully controlled causal framework, and demonstrates how grammar engineering can serve as a useful tool for analyzing neural models. Using this method, we find that commonly used neural architectures exhibit different inductive biases: LSTMs display little preference with respect to word ordering, while transformers display a clear preference for some orderings over others. Further, we find that neither the inductive bias of the LSTM nor that of the transformer appears to reflect any tendencies that we see in attested natural languages.


翻译:由于语言模型被用于模拟多种语言,因此自然会问用于这项任务的神经结构是否具有对特定类型语言的诱导偏差。对这些偏差的调查证明由于实验设置中出现的许多变量而变得复杂。语言在类型方面有许多不同层面,很难单独调查一两个,而其他语言则不作为混淆者行事。我们提出了一个调查语言模型的诱导偏差的新颖方法。这些语言的构建是为了使我们能够在所调查的字型特征(例如文字顺序)上产生不同语言的平行连体。我们随后使用这些神经结构来培训和测试语言模型。这构成了一个完全受控制的因果关系框架,并展示了语法工程如何作为分析神经模型的有用工具。我们采用这种方法发现,常用的神经结构表现出不同的感化偏差:LSTMS表示对文字排序的偏好不大,而变异者则表示对一些命令的偏好。此外,我们发现,无论是LSTM的感性偏向偏向性偏向,还是变异者似乎任何自然趋势都表现。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
70+阅读 · 2020年8月2日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
11+阅读 · 2019年5月6日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
338页新书《Deep Learning in Natural Language Processing》
机器学习算法与Python学习
8+阅读 · 2018年11月6日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Inductive Relation Prediction by Subgraph Reasoning
Arxiv
11+阅读 · 2020年2月12日
Arxiv
3+阅读 · 2018年11月14日
Arxiv
3+阅读 · 2018年5月11日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2017年12月29日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
70+阅读 · 2020年8月2日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
11+阅读 · 2019年5月6日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
338页新书《Deep Learning in Natural Language Processing》
机器学习算法与Python学习
8+阅读 · 2018年11月6日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Inductive Relation Prediction by Subgraph Reasoning
Arxiv
11+阅读 · 2020年2月12日
Arxiv
3+阅读 · 2018年11月14日
Arxiv
3+阅读 · 2018年5月11日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2017年12月29日
Arxiv
3+阅读 · 2017年12月18日
Top
微信扫码咨询专知VIP会员