【斯坦福CS224N硬核课】Transformers模型详解,50页ppt

2021 年 2 月 16 日 专知

注意力(Attention)机制[2]由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域,例如在计算机视觉方向用于捕捉图像上的感受野,或者NLP中用于定位关键token或者特征。谷歌团队近期提出的用于生成词向量的BERT[3]算法在NLP的11项任务中取得了效果的大幅提升,堪称2018年深度学习领域最振奋人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。

正如论文的题目所说的,Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder,并在机器翻译中取得了BLEU值得新高。

http://web.stanford.edu/class/cs224n/index.html#schedule


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“T50” 可以获取《【斯坦福CS224N硬核课】Transformers模型详解,50页ppt》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
1

相关内容

【斯坦福CS224N硬核课】 问答系统,陈丹琦讲解,79页ppt
专知会员服务
72+阅读 · 2021年2月23日
专知会员服务
36+阅读 · 2021年2月22日
【斯坦福CS224W】知识图谱推理,84页ppt
专知会员服务
116+阅读 · 2021年2月19日
专知会员服务
64+阅读 · 2021年2月17日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
99+阅读 · 2020年8月30日
【ST2020硬核课】深度神经网络,57页ppt
专知会员服务
43+阅读 · 2020年8月19日
【Facebook AI】低资源机器翻译,74页ppt
专知
10+阅读 · 2020年4月8日
39页《迁移学习自然语言生成》PPT
专知
9+阅读 · 2019年2月13日
Arxiv
0+阅读 · 2021年5月3日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
15+阅读 · 2020年2月5日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
21+阅读 · 2019年3月25日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
VIP会员
相关VIP内容
【斯坦福CS224N硬核课】 问答系统,陈丹琦讲解,79页ppt
专知会员服务
72+阅读 · 2021年2月23日
专知会员服务
36+阅读 · 2021年2月22日
【斯坦福CS224W】知识图谱推理,84页ppt
专知会员服务
116+阅读 · 2021年2月19日
专知会员服务
64+阅读 · 2021年2月17日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
99+阅读 · 2020年8月30日
【ST2020硬核课】深度神经网络,57页ppt
专知会员服务
43+阅读 · 2020年8月19日
相关论文
Arxiv
0+阅读 · 2021年5月3日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
15+阅读 · 2020年2月5日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
21+阅读 · 2019年3月25日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Top
微信扫码咨询专知VIP会员