Bidirectional Encoder Representations from Transformers (BERT) has shown marvelous improvements across various NLP tasks. Recently, an upgraded version of BERT has been released with Whole Word Masking (WWM), which mitigate the drawbacks of masking partial WordPiece tokens in pre-training BERT. In this technical report, we adapt whole word masking in Chinese text, that masking the whole word instead of masking Chinese characters, which could bring another challenge in Masked Language Model (MLM) pre-training task. The model was trained on the latest Chinese Wikipedia dump. We aim to provide easy extensibility and better performance for Chinese BERT without changing any neural architecture or even hyper-parameters. The model is verified on various NLP tasks, across sentence-level to document-level, including sentiment classification (ChnSentiCorp, Sina Weibo), named entity recognition (People Daily, MSRA-NER), natural language inference (XNLI), sentence pair matching (LCQMC, BQ Corpus), and machine reading comprehension (CMRC 2018, DRCD, CAIL RC). Experimental results on these datasets show that the whole word masking could bring another significant gain. Moreover, we also examine the effectiveness of Chinese pre-trained models: BERT, ERNIE, BERT-wwm. We release the pre-trained model (both TensorFlow and PyTorch) on GitHub: https://github.com/ymcui/Chinese-BERT-wwm


翻译:来自变异器(BERT)的双向编码器演示显示,在各种NLP任务中,BERT的升级版已经显示出巨大的改进。最近,BERT的升级版已经与全字遮掩(WWMM)一起发行,这缓解了在培训前BERT中隐藏部分 WordPiece 标志的缺点。在这个技术报告中,我们调整了中文文本中的整字遮掩,掩盖了整字遮掩,而不是遮掩中文字符,这可能会在蒙面语言模型(MLM)培训前的任务中带来另一个挑战。该模型在最新的中国维基百科垃圾堆上进行了培训。我们的目标是在不改变任何神经结构甚至超参数的情况下为中国BERT提供容易的扩展和更好的性能。该模型在各种NLP任务上进行了核实,包括情绪分类(ChnSenticorporation,Sina WeWibo),名称识别(POR-NERNE),自然语言模型(XwLI),判决配对(LQMC,BCOus),以及机器阅读理解(CRC 2018,D,CD, CRAD,C,C,CREAR)中的另一个数据测试。

11
下载
关闭预览

相关内容

BERT进展2019四篇必读论文
专知会员服务
64+阅读 · 2020年1月2日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
196+阅读 · 2019年9月30日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
ELECTRA:超越BERT,19年最佳NLP预训练模型
新智元
6+阅读 · 2019年11月6日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
Top
微信扫码咨询专知VIP会员