预先训练词嵌入是NLP深度学习成功的关键,因为它们允许模型利用web上几乎无限数量的未注释文本。在过去的几年里,条件语言模型被用来生成预先训练好的上下文表示,这比简单的嵌入更加丰富和强大。本文介绍了一种新的预训练技术——BERT(来自Transformer的双向编码器表示),它可以生成深度双向的预训练语言表示。BERT在斯坦福问答数据集、多项、斯坦福情感树库和许多其他任务上获得了最先进的结果。

Jacob Devlin是谷歌的研究员。在谷歌,他的主要研究兴趣是开发用于信息检索、问题回答和其他语言理解任务的快速、强大和可扩展的深度学习模型。2014年至2017年,他在微软研究院担任首席研究员,领导微软翻译从基于短语的翻译过渡到神经机器翻译(NMT)。他获得了ACL 2014最佳长论文奖和NAACL 2012最佳短论文奖。2009年,他在马里兰大学(University of Maryland)获得了计算机科学硕士学位,导师是邦尼·多尔(Bonnie Dorr)博士。

成为VIP会员查看完整内容
109

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
少标签数据学习,54页ppt
专知会员服务
194+阅读 · 2020年5月22日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
210+阅读 · 2020年4月26日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
BERT进展2019四篇必读论文
专知会员服务
66+阅读 · 2020年1月2日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
3分钟看懂史上最强NLP模型BERT
新智元
22+阅读 · 2019年2月27日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
11+阅读 · 2019年6月19日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关资讯
微信扫码咨询专知VIP会员