预先训练词嵌入是NLP深度学习成功的关键,因为它们允许模型利用web上几乎无限数量的未注释文本。在过去的几年里,条件语言模型被用来生成预先训练好的上下文表示,这比简单的嵌入更加丰富和强大。本文介绍了一种新的预训练技术——BERT(来自Transformer的双向编码器表示),它可以生成深度双向的预训练语言表示。BERT在斯坦福问答数据集、多项、斯坦福情感树库和许多其他任务上获得了最先进的结果。

Jacob Devlin是谷歌的研究员。在谷歌,他的主要研究兴趣是开发用于信息检索、问题回答和其他语言理解任务的快速、强大和可扩展的深度学习模型。2014年至2017年,他在微软研究院担任首席研究员,领导微软翻译从基于短语的翻译过渡到神经机器翻译(NMT)。他获得了ACL 2014最佳长论文奖和NAACL 2012最佳短论文奖。2009年,他在马里兰大学(University of Maryland)获得了计算机科学硕士学位,导师是邦尼·多尔(Bonnie Dorr)博士。

成为VIP会员查看完整内容
0
34

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。

【导读】这一份最新216页的ppt概述《深度学习自然语言处理》,包括神经网络基础,词向量表示,序列句子表示,分类标注、生成句子,预训练。

成为VIP会员查看完整内容
0
54

【导读】BERT的出现革新了众多自然语言处理任务中的模型架构范式,由此以BERT、为代表预训练语言模型(PLM)在多项任务中刷新了榜单,引起了学术界和工业界的大量关注。斯坦福大学经典自然语言处理课程CS224N邀请了BERT一作、Google 研究员Jacob Devlin做了关于上下文词表示BERT以及预训练语言模型的课程讲座,亲授大厂实战经验,值得关注!

预训练好的词嵌入是NLP深度学习成功的关键,因为它们允许模型利用web上几乎无限数量的未注释文本。在过去的几年里,条件语言模型被用来生成预训练上下文表示,这比简单的嵌入更加丰富和强大。本文介绍BERT(来自Transformers的双向编码器表示),它可以生成深度双向的预训练语言表示。BERT在Stanford Question Answering Dataset, MultiNLI, Stanford Sentiment Treebank和许多其他任务上获得了最先进的结果。

  • 预先训练的双向语言模型非常有效
  • 然而,这些模型非常昂贵
  • 遗憾的是,改进似乎主要来自更昂贵的模型和更多的数据
  • 推理/服务问题大多通过蒸馏“解决”

Jacob Devlin是谷歌的研究员。在谷歌,他的主要研究兴趣是开发用于信息检索、问题回答和其他语言理解任务的快速、强大和可扩展的深度学习模型。2014年至2017年,他在微软研究院担任首席研究员,领导微软翻译从基于短语的翻译过渡到神经机器翻译(NMT)。Devlin先生是ACL 2014年最佳长论文奖和NAACL 2012年最佳短论文奖的获得者。2009年,他在马里兰大学(University of Maryland)获得了计算机科学硕士学位,导师是邦尼·多尔(Bonnie Dorr)博士。

https://web.stanford.edu/class/cs224n/index.html#schedule

成为VIP会员查看完整内容
0
50

内容简介: 采用NLP预训练模型Bert的训练数据如果少的话,那么不足以训练复杂的网络;并且如果采用bert进行预训练则可以加快训练的速度;在运用预训练时,首先对参数进行初始化,找到一个好的初始点,那么对后续的优化将会产生巨大的影响。

说到利用深度学习来进行自然语言处理,必然绕不开的一个问题就是“Word Embedding”也 就是将词转换为计算机能够处理的向量,随之而来的人们也碰到到了一个根本性的问题,我们通常会面临这样的一个问题,同一个单词在不同语 境中的一词多义问题,研究人员对此也想到了对应的解决方案,例如在大语料上训练语境表示,从而得到不同的上下文情况的 不同向量表示。

Bert在模型层面上并没有新的突破,准确来说它更像是NLP领域 近期优秀模型的集大成者,Bert相比其他神经网络模型,同时具备了特征提取能力与语境表达能力,这是其他比如OPEN AI与ELMo所不能达到的。为了解决双向编码器循环过程中出现的间接“窥见”自己的问题,Bert采用了一个masked语言模型,将其他模型的思想恰到好处的融合起来了。

成为VIP会员查看完整内容
0
35

论文题目: How to Fine-Tune BERT for Text Classification?

论文摘要: 预训练语言模型已经在学习通用语言表示上证明了存在的价值。作为一个 SOTA 预训练语言模型,BERT(基于 Transformer 的双向编码表示)在许多语言理解任务上取得了惊人的结果。在本文中,研究者进行了一项费时费力的实验,用于探索在 BERT 上进行各种微调方法,以使其用于文本分类任务上。最终,研究者提出了一个通用的 BERT 微调方法。论文提出的方法在 8 个常见的文本分类数据集上取得了新的 SOTA 结果。

作者简介:

邱锡鹏,复旦大学计算机科学技术学院副教授,博士生导师。于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究,在ACL、EMNLP、AAAI、IJCAI等计算机学会A/B类期刊、会议上发表50余篇学术论文,引用 1900余次。开源中文自然语言处理工具FudanNLP作者,FastNLP项目负责人。2015年入选首届中国科协人才托举工程,2017年ACL杰出论文奖,2018年获中国中文信息学会“钱伟长中文信息处理科学技术奖—汉王青年创新奖”。

黄萱菁,1989~1998年就读于复旦大学计算机系,先后获学士、博士学位。1998年留校任教,2006年晋升为教授,博士生导师。2008~2009年在美国麻省大学智能信息检索中心从事访问学者研究。现为中国青年科技工作者协会会员,中国中文信息学会理事。等

成为VIP会员查看完整内容
0
28
小贴士
相关资讯
相关论文
Zhenzhong Lan,Mingda Chen,Sebastian Goodman,Kevin Gimpel,Piyush Sharma,Radu Soricut
8+阅读 · 2019年10月30日
K-BERT: Enabling Language Representation with Knowledge Graph
Weijie Liu,Peng Zhou,Zhe Zhao,Zhiruo Wang,Qi Ju,Haotang Deng,Ping Wang
12+阅读 · 2019年9月17日
Liang Yao,Chengsheng Mao,Yuan Luo
3+阅读 · 2019年9月7日
Ashutosh Adhikari,Achyudh Ram,Raphael Tang,Jimmy Lin
3+阅读 · 2019年8月22日
Kazuki Irie,Albert Zeyer,Ralf Schlüter,Hermann Ney
4+阅读 · 2019年7月11日
Yiming Cui,Wanxiang Che,Ting Liu,Bing Qin,Ziqing Yang,Shijin Wang,Guoping Hu
9+阅读 · 2019年6月19日
How to Fine-Tune BERT for Text Classification?
Chi Sun,Xipeng Qiu,Yige Xu,Xuanjing Huang
10+阅读 · 2019年5月14日
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Jinhyuk Lee,Wonjin Yoon,Sungdong Kim,Donghyeon Kim,Sunkyu Kim,Chan Ho So,Jaewoo Kang
4+阅读 · 2019年2月3日
Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova
6+阅读 · 2018年10月11日
Matthew E. Peters,Mark Neumann,Mohit Iyyer,Matt Gardner,Christopher Clark,Kenton Lee,Luke Zettlemoyer
7+阅读 · 2018年3月22日
Top