注意力(Attention)机制[2]由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域,例如在计算机视觉方向用于捕捉图像上的感受野,或者NLP中用于定位关键token或者特征。谷歌团队近期提出的用于生成词向量的BERT[3]算法在NLP的11项任务中取得了效果的大幅提升,堪称2018年深度学习领域最振奋人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。

正如论文的题目所说的,Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder,并在机器翻译中取得了BLEU值得新高。

http://web.stanford.edu/class/cs224n/index.html#schedule

成为VIP会员查看完整内容
0
27

相关内容

问答(QA)是自然语言处理中最早的核心问题之一,并且在许多现实世界的应用(例如搜索引擎和个人助理)中发挥了重要作用。开放域问答在最近几年重获关注,它通常基于大量非结构化文档的收集,旨在自动回答人类以自然语言形式提出的问题。

http://web.stanford.edu/class/cs224n/index.html#schedule

成为VIP会员查看完整内容
0
19

自然语言生成经过几十年的发展,已经成为人工智能和自然语言处理的重要研究领域。最早的自然语言生成系统采用规则、模板的方法,设计各司其职的模块进行文本生成,其中体现了很多专家设计的词汇、语法、句法甚至语用的语言学知识。统计语言模型则从概率统计的角度提出了语言建模的新思路,将词汇与上下文的依赖关系编码在条件概率中。以深度学习模型为基本架构的现代语言生成模型绝大多数通过端到端训练的方式,能更好地建模词汇与上下文之间统计共现关系,显著地提升了文本生成的性能。特别是以Transformer为基础架构的预训练语言生成模型,能够较好地捕获包括词汇、语法、句法、语义等各层面的语言学知识,极大地推动了自然语言生成的进展,生成效果令人惊叹。

• 自然语言生成(NLG)是自然语言处理的一个子领域

• 专注于构建系统,自动生成连贯和有用的书面或口头文本供人类使用

• NLG系统已经在改变我们生活的世界……

成为VIP会员查看完整内容
0
20

来自UIUC的Transformers最新教程。

Transformer 架构 architecture Attention models Implementation details Transformer-based 语言模型 language models BERT GPT Other models

Transformer 视觉 Applications of Transformers in vision

成为VIP会员查看完整内容
0
59

自然语言处理中的自注意力模型

目前自注意力模型(比如Transformer)在自然语言处理领域取得了广泛的成功。本报告主要介绍自注意力模型方面的一些工作,主要涵盖两部分内容:1)Transformer及其改进模型:通过分析Transformer的基本原理和优缺点,提出一些改进模型Star-Transformer、Multi-Scale Transformer、BP-Transformer等。2)Transformer模型的应用:将Transformer模型应用在文本分类、实体名识别等自然语言任务上,并通过针对性的改进来进一步提高性能。最后,对Transformer模型及其未来发展趋势进行展望。

成为VIP会员查看完整内容
0
85

Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。Transformer是:“首个完全抛弃RNN的recurrence,CNN的convolution,仅用attention来做特征抽取的模型。“ 本文简介了Transformer模型。

成为VIP会员查看完整内容
0
39

来自深度学习数学夏季学校2020的第二节课:深度神经网络,介绍了深度学习历史、神经网络等知识点。

成为VIP会员查看完整内容
0
29

【导读】BERT的出现革新了众多自然语言处理任务中的模型架构范式,由此以BERT、为代表预训练语言模型(PLM)在多项任务中刷新了榜单,引起了学术界和工业界的大量关注。斯坦福大学经典自然语言处理课程CS224N邀请了BERT一作、Google 研究员Jacob Devlin做了关于上下文词表示BERT以及预训练语言模型的课程讲座,亲授大厂实战经验,值得关注!

预训练好的词嵌入是NLP深度学习成功的关键,因为它们允许模型利用web上几乎无限数量的未注释文本。在过去的几年里,条件语言模型被用来生成预训练上下文表示,这比简单的嵌入更加丰富和强大。本文介绍BERT(来自Transformers的双向编码器表示),它可以生成深度双向的预训练语言表示。BERT在Stanford Question Answering Dataset, MultiNLI, Stanford Sentiment Treebank和许多其他任务上获得了最先进的结果。

  • 预先训练的双向语言模型非常有效
  • 然而,这些模型非常昂贵
  • 遗憾的是,改进似乎主要来自更昂贵的模型和更多的数据
  • 推理/服务问题大多通过蒸馏“解决”

Jacob Devlin是谷歌的研究员。在谷歌,他的主要研究兴趣是开发用于信息检索、问题回答和其他语言理解任务的快速、强大和可扩展的深度学习模型。2014年至2017年,他在微软研究院担任首席研究员,领导微软翻译从基于短语的翻译过渡到神经机器翻译(NMT)。Devlin先生是ACL 2014年最佳长论文奖和NAACL 2012年最佳短论文奖的获得者。2009年,他在马里兰大学(University of Maryland)获得了计算机科学硕士学位,导师是邦尼·多尔(Bonnie Dorr)博士。

https://web.stanford.edu/class/cs224n/index.html#schedule

成为VIP会员查看完整内容
0
60

预先训练词嵌入是NLP深度学习成功的关键,因为它们允许模型利用web上几乎无限数量的未注释文本。在过去的几年里,条件语言模型被用来生成预先训练好的上下文表示,这比简单的嵌入更加丰富和强大。本文介绍了一种新的预训练技术——BERT(来自Transformer的双向编码器表示),它可以生成深度双向的预训练语言表示。BERT在斯坦福问答数据集、多项、斯坦福情感树库和许多其他任务上获得了最先进的结果。

Jacob Devlin是谷歌的研究员。在谷歌,他的主要研究兴趣是开发用于信息检索、问题回答和其他语言理解任务的快速、强大和可扩展的深度学习模型。2014年至2017年,他在微软研究院担任首席研究员,领导微软翻译从基于短语的翻译过渡到神经机器翻译(NMT)。他获得了ACL 2014最佳长论文奖和NAACL 2012最佳短论文奖。2009年,他在马里兰大学(University of Maryland)获得了计算机科学硕士学位,导师是邦尼·多尔(Bonnie Dorr)博士。

成为VIP会员查看完整内容
0
50
小贴士
相关主题
相关VIP内容
专知会员服务
20+阅读 · 2月22日
专知会员服务
20+阅读 · 2月17日
专知会员服务
59+阅读 · 2020年11月26日
专知会员服务
39+阅读 · 2020年8月30日
专知会员服务
29+阅读 · 2020年8月19日
相关资讯
绝对干货!NLP预训练模型:从transformer到albert
新智元
12+阅读 · 2019年11月10日
干货 | 谷歌2019最火NLP模型Bert应用详解
全球人工智能
7+阅读 · 2019年4月3日
详解谷歌最强NLP模型BERT(理论+实战)
AI100
9+阅读 · 2019年1月18日
斯坦福NLP组-2019-《CS224n: NLP与深度学习》-分享
深度学习与NLP
5+阅读 · 2019年1月14日
自注意力机制在计算机视觉中的应用【附PPT与视频资料】
人工智能前沿讲习班
15+阅读 · 2018年12月20日
深度上下文词向量
微信AI
15+阅读 · 2018年9月13日
相关论文
Jiarui Fang,Yang Yu,Chengduo Zhao,Jie Zhou
0+阅读 · 2月20日
Kazuki Irie,Albert Zeyer,Ralf Schlüter,Hermann Ney
5+阅读 · 2019年7月11日
Learning Deep Transformer Models for Machine Translation
Qiang Wang,Bei Li,Tong Xiao,Jingbo Zhu,Changliang Li,Derek F. Wong,Lidia S. Chao
3+阅读 · 2019年6月5日
Sparse Sequence-to-Sequence Models
Ben Peters,Vlad Niculae,André F. T. Martins
3+阅读 · 2019年5月14日
Sergey Edunov,Alexei Baevski,Michael Auli
3+阅读 · 2019年4月1日
Star-Transformer
Qipeng Guo,Xipeng Qiu,Pengfei Liu,Yunfan Shao,Xiangyang Xue,Zheng Zhang
3+阅读 · 2019年2月28日
Doubly Attentive Transformer Machine Translation
Hasan Sait Arslan,Mark Fishel,Gholamreza Anbarjafari
4+阅读 · 2018年7月30日
Łukasz Kaiser,Samy Bengio
6+阅读 · 2018年1月29日
Top