【ICML 2020】设置LayerNorm使Transformer加速收敛 - 专知VIP

会员服务 ·

2

ICML2020 · Transformer ·

2020 年 7 月 27 日

【ICML 2020】设置LayerNorm使Transformer加速收敛

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近年来，Transformer 网络结构已经在自然语言处理的各项任务中都取得了“屠榜”的成绩。然而 Transformer 结构的优化非常困难，其具体表现有 warm-up 阶段超参数敏感、优化过程收敛速度慢等问题。近日，中科院、北京大学和微软亚洲研究院的研究员们在国际机器学习大会 ICML 2020 上发表了题为“On the Layer Normalization in the Transformer Architecture”的论文（点击阅读原文查看），从理论上详细分析了 Transformer 结构优化困难的原因，并给出了解决方法，可以让 Transformer 彻底摆脱 warm-up 阶段，并且大幅加快训练的收敛速度。

成为VIP会员查看完整内容

16

相关内容

ICML2020

深度神经网络模型压缩综述

专知会员服务

116+阅读 · 2020年8月22日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【KDD2020】最小方差采样用于图神经网络的快速训练

【KDD2020】最小方差采样用于图神经网络的快速训练

专知会员服务

28+阅读 · 2020年7月13日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

从HPO到NAS: 自动深度学习

从HPO到NAS: 自动深度学习

专知会员服务

39+阅读 · 2020年6月15日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

过参数化、剪枝和网络结构搜索

过参数化、剪枝和网络结构搜索

极市平台

17+阅读 · 2019年11月24日

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

推理速度快千倍！谷歌开源语言模型Transformer-XL

推理速度快千倍！谷歌开源语言模型Transformer-XL

AI前线

9+阅读 · 2019年1月26日

2018 年 Top 10 影响力 AI 研究论文

2018 年 Top 10 影响力 AI 研究论文

AI科技评论

41+阅读 · 2019年1月6日

AI综述专栏 | 深度神经网络加速与压缩

AI综述专栏 | 深度神经网络加速与压缩

人工智能前沿讲习班

31+阅读 · 2018年10月31日

如何用张量分解加速深层神经网络？（附代码）

如何用张量分解加速深层神经网络？（附代码）

AI研习社

11+阅读 · 2018年3月2日

Fast.ai推出NLP最新迁移学习方法「微调语言模型」，可将误差减少超过20%！

Fast.ai推出NLP最新迁移学习方法「微调语言模型」，可将误差减少超过20%！

机器学习研究会

6+阅读 · 2018年1月21日

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

机器学习研究会

11+阅读 · 2018年1月16日

【像训练CNN一样快速训练RNN】全新RNN实现，比优化后的LSTM快10倍

【像训练CNN一样快速训练RNN】全新RNN实现，比优化后的LSTM快10倍

新智元

6+阅读 · 2017年9月12日

教程 | 拟合目标函数后验分布的调参利器：贝叶斯优化

教程 | 拟合目标函数后验分布的调参利器：贝叶斯优化

机器之心

6+阅读 · 2017年8月18日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

Pretrained Transformers Improve Out-of-Distribution Robustness

Arxiv

5+阅读 · 2020年4月13日

On Layer Normalization in the Transformer Architecture

Arxiv

4+阅读 · 2020年2月12日

Fast AutoAugment

Fast AutoAugment

Arxiv

5+阅读 · 2019年5月1日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Neural Speech Synthesis with Transformer Network

Neural Speech Synthesis with Transformer Network

Arxiv

5+阅读 · 2019年1月30日

Close to Human Quality TTS with Transformer

Arxiv

3+阅读 · 2018年11月13日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

VIP会员

相关主题

相关VIP内容

深度神经网络模型压缩综述

专知会员服务

116+阅读 · 2020年8月22日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【KDD2020】最小方差采样用于图神经网络的快速训练

【KDD2020】最小方差采样用于图神经网络的快速训练

专知会员服务

28+阅读 · 2020年7月13日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

从HPO到NAS: 自动深度学习

从HPO到NAS: 自动深度学习

专知会员服务

39+阅读 · 2020年6月15日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

《实现协同自主：从人机协作到多智能体系统》最新190页

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

通信网络智能体白皮书V1.0，61页pdf

相关资讯

过参数化、剪枝和网络结构搜索

过参数化、剪枝和网络结构搜索

极市平台

17+阅读 · 2019年11月24日

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

推理速度快千倍！谷歌开源语言模型Transformer-XL

推理速度快千倍！谷歌开源语言模型Transformer-XL

AI前线

9+阅读 · 2019年1月26日

2018 年 Top 10 影响力 AI 研究论文

2018 年 Top 10 影响力 AI 研究论文

AI科技评论

41+阅读 · 2019年1月6日

AI综述专栏 | 深度神经网络加速与压缩

AI综述专栏 | 深度神经网络加速与压缩

人工智能前沿讲习班

31+阅读 · 2018年10月31日

如何用张量分解加速深层神经网络？（附代码）

如何用张量分解加速深层神经网络？（附代码）

AI研习社

11+阅读 · 2018年3月2日

Fast.ai推出NLP最新迁移学习方法「微调语言模型」，可将误差减少超过20%！

Fast.ai推出NLP最新迁移学习方法「微调语言模型」，可将误差减少超过20%！

机器学习研究会

6+阅读 · 2018年1月21日

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

机器学习研究会

11+阅读 · 2018年1月16日

【像训练CNN一样快速训练RNN】全新RNN实现，比优化后的LSTM快10倍

【像训练CNN一样快速训练RNN】全新RNN实现，比优化后的LSTM快10倍

新智元

6+阅读 · 2017年9月12日

教程 | 拟合目标函数后验分布的调参利器：贝叶斯优化

教程 | 拟合目标函数后验分布的调参利器：贝叶斯优化

机器之心

6+阅读 · 2017年8月18日

相关论文

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

Pretrained Transformers Improve Out-of-Distribution Robustness

Arxiv

5+阅读 · 2020年4月13日

On Layer Normalization in the Transformer Architecture

Arxiv

4+阅读 · 2020年2月12日

Fast AutoAugment

Fast AutoAugment

Arxiv

5+阅读 · 2019年5月1日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Neural Speech Synthesis with Transformer Network

Neural Speech Synthesis with Transformer Network

Arxiv

5+阅读 · 2019年1月30日

Close to Human Quality TTS with Transformer

Arxiv

3+阅读 · 2018年11月13日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

微信扫码咨询专知VIP会员