题目: 自然语言处理中的表示学习进展:从Transfomer到BERT

报告人: 邱锡鹏 博士 复旦大学

摘要: 目前全连接自注意力模型(比如Transformer)在自然语言处理领域取得了广泛的成功。本报告主要介绍我们在自注意力模型方面的一些工作,主要涵盖两部分内容:1)Transformer及其改进模型:通过分析Transformer的基本原理和优缺点,提出一些改进模型Star-Transformer、Multi-Scale Transformer等。2)预训练的Transformer模型的迁移方法:虽然预训练的Transformer模型(比如BERT、GPT等)在很多自然语言任务上都取得了非常好的性能,我们通过任务转换、继续预训练、多任务学习等方法来进一步提高其迁移能力。最后,对Transformer模型及其未来发展趋势进行展望。

成为VIP会员查看完整内容
20191104-MLA2019-自然语言处理中的表示学习进展:从Transfomer到BERT.pdf
0
67

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。

预先训练词嵌入是NLP深度学习成功的关键,因为它们允许模型利用web上几乎无限数量的未注释文本。在过去的几年里,条件语言模型被用来生成预先训练好的上下文表示,这比简单的嵌入更加丰富和强大。本文介绍了一种新的预训练技术——BERT(来自Transformer的双向编码器表示),它可以生成深度双向的预训练语言表示。BERT在斯坦福问答数据集、多项、斯坦福情感树库和许多其他任务上获得了最先进的结果。

Jacob Devlin是谷歌的研究员。在谷歌,他的主要研究兴趣是开发用于信息检索、问题回答和其他语言理解任务的快速、强大和可扩展的深度学习模型。2014年至2017年,他在微软研究院担任首席研究员,领导微软翻译从基于短语的翻译过渡到神经机器翻译(NMT)。他获得了ACL 2014最佳长论文奖和NAACL 2012最佳短论文奖。2009年,他在马里兰大学(University of Maryland)获得了计算机科学硕士学位,导师是邦尼·多尔(Bonnie Dorr)博士。

成为VIP会员查看完整内容
0
57

神经网络与深度学习,复旦大学邱锡鹏老师。近年来,以机器学习、知识图谱为代表的人工智能技术逐渐变得普及。从车牌识别、人脸识别、语音识别、智能问答、推荐系统到自动驾驶,人们在日常生活中都可能有意无意地使用到了人工智能技术。这些技术的背后都离不开人工智能领域研究者们的长期努力。特别是最近这几年,得益于数据的增多、计算能力的增强、学习算法的成熟以及应用场景的丰富,越来越多的人开始关注这一个“崭新”的研究领域:深度学习。深度学习以神经网络为主要模型,一开始用来解决机器学习中的表示学习问题。但是由于其强大的能力,深度学习越来越多地用来解决一些通用人工智能问题,比如推理、决策等。目前,深度学习技术在学术界和工业界取得了广泛的成功,受到高度重视,并掀起新一轮的人工智能热潮。

本课程主要介绍神经网络与深度学习中的基础知识、主要模型(前馈网络、卷积网络、循环网络等)以及在计算机视觉、自然语言处理等领域的应用。

本书的写作目的是使得读者能够掌握神经网络与深度学习技术的基本原理,知其然还要知其所以然。全书共 15 章。第 1 章是绪论,介绍人工智能、机器学习、深度学习的概要,使读者对相关知识进行全面的了解。第2、3章介绍机器学习的基础知识。第4、5、6章分别讲述三种主要的神经网络模型:前馈神经 网络、卷积神经网络和循环神经网络。第7章介绍神经网络的优化与正则化方法。第8章介绍神经网络中的注意力机制和外部记忆。第9章简要介绍一些无监督学习方法。第10章介绍一些模型独立的机器学习方法:集成学习、自训练、协同训练多任务学习、迁移学习、终身学习、元学习等,这些都是目前深度学习的难点和热点问题。第11章介绍概率图模型的基本概念,为后面的章节进行铺垫。第12章介绍两种早期的深度学习模型:玻尔兹曼机和深度信念网络。第13章介绍最近两年发展十分迅速的深度生成模型:变分自编码器和生成对抗网络。第14章介绍深度强化学习的知识。第15章介绍应用十分广泛的序列生成模型。

  • 绪论
  • 机器学习概述
  • 线性模型
  • 前馈神经网络
  • 卷积神经网络
  • 循环神经网络
  • 网络优化与正则化
  • 注意力机制与外部记忆
  • 无监督学习
  • 模型独立的学习方式
  • 概率图模型
  • 深度信念网络
  • 深度生成模型
  • 深度强化学习
  • 序列生成模型 一个过时版本:词嵌入与语言模型
  • 数学基础
成为VIP会员查看完整内容
0
55
小贴士
相关资讯
8篇论文梳理BERT相关模型进展与反思 | MSRA出品
带你读论文丨 8 篇论文梳理 BERT 相关模型
新智元
7+阅读 · 2019年9月9日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
3分钟看懂史上最强NLP模型BERT
新智元
16+阅读 · 2019年2月27日
自然语言处理中注意力机制综述
Python开发者
10+阅读 · 2019年1月31日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
9+阅读 · 2019年1月8日
自然语言处理中的语言模型预训练方法
PaperWeekly
12+阅读 · 2018年10月21日
相关论文
TinyBERT: Distilling BERT for Natural Language Understanding
Xiaoqi Jiao,Yichun Yin,Lifeng Shang,Xin Jiang,Xiao Chen,Linlin Li,Fang Wang,Qun Liu
8+阅读 · 2019年9月23日
Betty van Aken,Benjamin Winter,Alexander Löser,Felix A. Gers
3+阅读 · 2019年9月11日
Yang Liu,Mirella Lapata
4+阅读 · 2019年8月22日
Hiroaki Hayashi,Zecong Hu,Chenyan Xiong,Graham Neubig
15+阅读 · 2019年8月21日
Kazuki Irie,Albert Zeyer,Ralf Schlüter,Hermann Ney
5+阅读 · 2019年7月11日
Zhilin Yang,Zihang Dai,Yiming Yang,Jaime Carbonell,Ruslan Salakhutdinov,Quoc V. Le
13+阅读 · 2019年6月19日
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Jinhyuk Lee,Wonjin Yoon,Sungdong Kim,Donghyeon Kim,Sunkyu Kim,Chan Ho So,Jaewoo Kang
5+阅读 · 2019年2月3日
The Evolved Transformer
David R. So,Chen Liang,Quoc V. Le
5+阅读 · 2019年1月30日
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Zihang Dai,Zhilin Yang,Yiming Yang,William W. Cohen,Jaime Carbonell,Quoc V. Le,Ruslan Salakhutdinov
3+阅读 · 2019年1月9日
Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova
9+阅读 · 2018年10月11日
Top