Currently, the most widespread neural network architecture for training language models is the so called BERT which led to improvements in various Natural Language Processing (NLP) tasks. In general, the larger the number of parameters in a BERT model, the better the results obtained in these NLP tasks. Unfortunately, the memory consumption and the training duration drastically increases with the size of these models. In this article, we investigate various training techniques of smaller BERT models: We combine different methods from other BERT variants like ALBERT, RoBERTa, and relative positional encoding. In addition, we propose two new fine-tuning modifications leading to better performance: Class-Start-End tagging and a modified form of Linear Chain Conditional Random Fields. Furthermore, we introduce Whole-Word Attention which reduces BERTs memory usage and leads to a small increase in performance compared to classical Multi-Head-Attention. We evaluate these techniques on five public German Named Entity Recognition (NER) tasks of which two are introduced by this article.


翻译:目前,培训语言模型最广泛的神经网络结构是所谓的BERT,它导致各种自然语言处理(NLP)任务的改进。一般来说,BERT模型的参数数量越多,这些NLP任务的结果越好。不幸的是,记忆消耗和培训期限随着这些模型的大小而急剧增加。在本篇文章中,我们调查了小型BERT模型的各种培训技术:我们结合了与ALBERT、ROBERTA和相对位置编码等其他BERT变量的不同方法。此外,我们建议了两种新的微调修改,以导致更好的性能:Asle-Start-End标记和一种修改式的线性链链式随机场。此外,我们引入了全方位注意,这减少了BERT的记忆使用,并导致与传统的多负责人保管模式相比性能略有提高。我们评估了这五种德国公共命名实体识别(NER)任务中的这些技术,其中两种任务是由本条引入的。

0
下载
关闭预览

相关内容

命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
16+阅读 · 2020年7月27日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
已删除
架构文摘
3+阅读 · 2019年4月17日
三分钟带你读懂 BERT
AI研习社
3+阅读 · 2019年3月20日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
5+阅读 · 2020年10月14日
VIP会员
相关VIP内容
专知会员服务
16+阅读 · 2020年7月27日
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
已删除
架构文摘
3+阅读 · 2019年4月17日
三分钟带你读懂 BERT
AI研习社
3+阅读 · 2019年3月20日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Top
微信扫码咨询专知VIP会员