近年来,Transformer 网络结构已经在自然语言处理的各项任务中都取得了“屠榜”的成绩。然而 Transformer 结构的优化非常困难,其具体表现有 warm-up 阶段超参数敏感、优化过程收敛速度慢等问题。近日,中科院、北京大学和微软亚洲研究院的研究员们在国际机器学习大会 ICML 2020 上发表了题为“On the Layer Normalization in the Transformer Architecture”的论文(点击阅读原文查看),从理论上详细分析了 Transformer 结构优化困难的原因,并给出了解决方法,可以让 Transformer 彻底摆脱 warm-up 阶段,并且大幅加快训练的收敛速度。

成为VIP会员查看完整内容
15

相关内容

专知会员服务
112+阅读 · 2020年8月22日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【KDD2020】最小方差采样用于图神经网络的快速训练
专知会员服务
27+阅读 · 2020年7月13日
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
33+阅读 · 2020年7月5日
从HPO到NAS: 自动深度学习
专知会员服务
37+阅读 · 2020年6月15日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
专知会员服务
44+阅读 · 2020年3月6日
深度神经网络模型压缩与加速综述
专知会员服务
126+阅读 · 2019年10月12日
过参数化、剪枝和网络结构搜索
极市平台
16+阅读 · 2019年11月24日
英伟达Faster Transformer:作者带你揭秘BERT优化
机器之心
13+阅读 · 2019年9月18日
2018 年 Top 10 影响力 AI 研究论文
AI科技评论
41+阅读 · 2019年1月6日
AI综述专栏 | 深度神经网络加速与压缩
人工智能前沿讲习班
30+阅读 · 2018年10月31日
如何用张量分解加速深层神经网络?(附代码)
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关VIP内容
专知会员服务
112+阅读 · 2020年8月22日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【KDD2020】最小方差采样用于图神经网络的快速训练
专知会员服务
27+阅读 · 2020年7月13日
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
33+阅读 · 2020年7月5日
从HPO到NAS: 自动深度学习
专知会员服务
37+阅读 · 2020年6月15日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
专知会员服务
44+阅读 · 2020年3月6日
深度神经网络模型压缩与加速综述
专知会员服务
126+阅读 · 2019年10月12日
相关资讯
过参数化、剪枝和网络结构搜索
极市平台
16+阅读 · 2019年11月24日
英伟达Faster Transformer:作者带你揭秘BERT优化
机器之心
13+阅读 · 2019年9月18日
2018 年 Top 10 影响力 AI 研究论文
AI科技评论
41+阅读 · 2019年1月6日
AI综述专栏 | 深度神经网络加速与压缩
人工智能前沿讲习班
30+阅读 · 2018年10月31日
如何用张量分解加速深层神经网络?(附代码)
相关论文
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
微信扫码咨询专知VIP会员