Experiments with transfer learning on pre-trained language models such as BERT have shown that the layers of these models resemble the classical NLP pipeline, with progressively more complex tasks being concentrated in later layers of the network. We investigate to what extent these results also hold for a language other than English. For this we probe a Dutch BERT-based model and the multilingual BERT model for Dutch NLP tasks. In addition, by considering the task of part-of-speech tagging in more detail, we show that also within a given task, information is spread over different parts of the network and the pipeline might not be as neat as it seems. Each layer has different specialisations and it is therefore useful to combine information from different layers for best results, instead of selecting a single layer based on the best overall performance.


翻译:在培训前语言模型(如BERT)上传授学习的实验表明,这些模型的层层类似于古典NLP编织管道,逐渐将更复杂的任务集中在网络的后层。我们调查这些结果在多大程度上也有利于英语以外的一种语言。我们为此探索荷兰的BERT模型和荷兰国家语言模型任务多语种的BERT模型。此外,通过更详细地考虑部分语音标记的任务,我们表明,在特定任务中,信息分散在网络的不同部分,管道可能不那么整齐。每个层都有不同的专门性,因此,将不同层的信息综合起来以取得最佳结果是有益的,而不是根据最佳的总体绩效选择一个单一层。

0
下载
关闭预览

相关内容

一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
168+阅读 · 2020年5月6日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
22+阅读 · 2019年11月4日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
基于PyTorch/TorchText的自然语言处理库
专知
27+阅读 · 2019年4月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
12+阅读 · 2019年2月28日
VIP会员
Top
微信扫码咨询专知VIP会员