【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络 - 专知VIP

会员服务 ·

2

梯度爆炸 · 神经网络 · 激活函数 ·

2020 年 6 月 22 日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

简介：

梯度爆炸和消失的问题一直是阻碍神经网络有效训练的长期障碍。尽管在实践中采用了各种技巧和技术来缓解该问题，但仍然缺少令人满意的理论或可证明的解决方案。在本文中，我们从高维概率论的角度解决了这个问题。我们提供了严格的结果，表明在一定条件下，如果神经网络具有足够的宽度，则爆炸/消失梯度问题将很可能消失。我们的主要思想是通过一类新的激活函数（即高斯-庞加莱归一化函数和正交权重矩阵）来限制非线性神经网络中的正向和反向信号传播。在数据实验都可以验证理论，并在实际应用中将其有效性确认在非常深的神经网络上。

成为VIP会员查看完整内容

17

相关内容

梯度爆炸

误差梯度是神经网络训练过程中计算的方向和数量，用于以正确的方向和合适的量更新网络权重。在深层网络或循环神经网络中，误差梯度可在更新中累积，变成非常大的梯度，然后导致网络权重的大幅更新，并因此使网络变得不稳定。在极端情况下，权重的值变得非常大，以至于溢出，导致NaN值。网络层之间的梯度（值大于 1.0）重复相乘导致的指数级增长会产生梯度爆炸。

深度学习理论进展如何？看这6节上海交大暑期学校硬课: 均值场理论、神经切核、函数空间理论、隐式正则化、频率原理（附PPT下载）

深度学习理论进展如何？看这6节上海交大暑期学校硬课: 均值场理论、神经切核、函数空间理论、隐式正则化、频率原理（附PPT下载）

专知会员服务

53+阅读 · 2020年8月2日

【ICML2020】对抗的非负矩阵分解

专知会员服务

30+阅读 · 2020年7月31日

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知会员服务

66+阅读 · 2020年6月22日

【论文推荐】Stochastic Graph Neural Networks，随机图神经网络

【论文推荐】Stochastic Graph Neural Networks，随机图神经网络

专知会员服务

69+阅读 · 2020年6月6日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

专知会员服务

53+阅读 · 2020年4月8日

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

专知会员服务

110+阅读 · 2020年2月22日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

图神经网络火了？谈下它的普适性与局限性

图神经网络火了？谈下它的普适性与局限性

机器之心

22+阅读 · 2019年7月29日

神经网络中的权重初始化一览：从基础到Kaiming

神经网络中的权重初始化一览：从基础到Kaiming

大数据文摘

12+阅读 · 2019年4月18日

CMU、谷歌提出Transformer-XL：学习超长上下文关系

CMU、谷歌提出Transformer-XL：学习超长上下文关系

机器之心

9+阅读 · 2019年1月18日

博客 | Tensorflow系列专题（四）：神经网络篇之前馈神经网络综述

博客 | Tensorflow系列专题（四）：神经网络篇之前馈神经网络综述

AI研习社

3+阅读 · 2018年11月14日

递归神经网络

递归神经网络

Datartisan数据工匠

4+阅读 · 2018年8月2日

基础 | GRU神经网络

基础 | GRU神经网络

黑龙江大学自然语言处理实验室

27+阅读 · 2018年3月5日

入门 | 一文了解神经网络中的梯度爆炸

入门 | 一文了解神经网络中的梯度爆炸

机器之心

8+阅读 · 2017年12月22日

干货|浅谈神经网络中激活函数的设计

干货|浅谈神经网络中激活函数的设计

机器学习研究会

5+阅读 · 2017年10月28日

Highway Networks For Sentence Classification

Highway Networks For Sentence Classification

哈工大SCIR

4+阅读 · 2017年9月30日

神经网络机器翻译原理：LSTM、seq2seq到Zero-Shot

神经网络机器翻译原理：LSTM、seq2seq到Zero-Shot

北京思腾合力科技有限公司

11+阅读 · 2017年8月10日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

Reversible Recurrent Neural Networks

Arxiv

3+阅读 · 2018年10月25日

Multi-Task Neural Models for Translating Between Styles Within and Across Languages

Arxiv

4+阅读 · 2018年6月12日

Bi-Directional Neural Machine Translation with Synthetic Parallel Data

Arxiv

6+阅读 · 2018年5月29日

A Stochastic Decoder for Neural Machine Translation

Arxiv

5+阅读 · 2018年5月28日

Recursive Neural Network Based Preordering for English-to-Japanese Machine Translation

Arxiv

7+阅读 · 2018年5月25日

When and Why are Pre-trained Word Embeddings Useful for Neural Machine Translation?

Arxiv

3+阅读 · 2018年4月18日

Pay More Attention - Neural Architectures for Question-Answering

Arxiv

5+阅读 · 2018年3月25日

Depth-Gated LSTM

Arxiv

4+阅读 · 2015年8月25日

VIP会员

相关主题

相关VIP内容

深度学习理论进展如何？看这6节上海交大暑期学校硬课: 均值场理论、神经切核、函数空间理论、隐式正则化、频率原理（附PPT下载）

深度学习理论进展如何？看这6节上海交大暑期学校硬课: 均值场理论、神经切核、函数空间理论、隐式正则化、频率原理（附PPT下载）

专知会员服务

53+阅读 · 2020年8月2日

【ICML2020】对抗的非负矩阵分解

专知会员服务

30+阅读 · 2020年7月31日

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知会员服务

66+阅读 · 2020年6月22日

【论文推荐】Stochastic Graph Neural Networks，随机图神经网络

【论文推荐】Stochastic Graph Neural Networks，随机图神经网络

专知会员服务

69+阅读 · 2020年6月6日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

专知会员服务

53+阅读 · 2020年4月8日

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

专知会员服务

110+阅读 · 2020年2月22日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】面向可扩展深度神经网络的预测编码：理论与实践

如何快速获取数百万架无人机？

EMNLP 2025 | RTQA：递归思想求解复杂的时间知识图谱问答

组合式零样本学习综述

相关资讯

图神经网络火了？谈下它的普适性与局限性

图神经网络火了？谈下它的普适性与局限性

机器之心

22+阅读 · 2019年7月29日

神经网络中的权重初始化一览：从基础到Kaiming

神经网络中的权重初始化一览：从基础到Kaiming

大数据文摘

12+阅读 · 2019年4月18日

CMU、谷歌提出Transformer-XL：学习超长上下文关系

CMU、谷歌提出Transformer-XL：学习超长上下文关系

机器之心

9+阅读 · 2019年1月18日

博客 | Tensorflow系列专题（四）：神经网络篇之前馈神经网络综述

博客 | Tensorflow系列专题（四）：神经网络篇之前馈神经网络综述

AI研习社

3+阅读 · 2018年11月14日

递归神经网络

递归神经网络

Datartisan数据工匠

4+阅读 · 2018年8月2日

基础 | GRU神经网络

基础 | GRU神经网络

黑龙江大学自然语言处理实验室

27+阅读 · 2018年3月5日

入门 | 一文了解神经网络中的梯度爆炸

入门 | 一文了解神经网络中的梯度爆炸

机器之心

8+阅读 · 2017年12月22日

干货|浅谈神经网络中激活函数的设计

干货|浅谈神经网络中激活函数的设计

机器学习研究会

5+阅读 · 2017年10月28日

Highway Networks For Sentence Classification

Highway Networks For Sentence Classification

哈工大SCIR

4+阅读 · 2017年9月30日

神经网络机器翻译原理：LSTM、seq2seq到Zero-Shot

神经网络机器翻译原理：LSTM、seq2seq到Zero-Shot

北京思腾合力科技有限公司

11+阅读 · 2017年8月10日

相关论文

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

Reversible Recurrent Neural Networks

Arxiv

3+阅读 · 2018年10月25日

Multi-Task Neural Models for Translating Between Styles Within and Across Languages

Arxiv

4+阅读 · 2018年6月12日

Bi-Directional Neural Machine Translation with Synthetic Parallel Data

Arxiv

6+阅读 · 2018年5月29日

A Stochastic Decoder for Neural Machine Translation

Arxiv

5+阅读 · 2018年5月28日

Recursive Neural Network Based Preordering for English-to-Japanese Machine Translation

Arxiv

7+阅读 · 2018年5月25日

When and Why are Pre-trained Word Embeddings Useful for Neural Machine Translation?

Arxiv

3+阅读 · 2018年4月18日

Pay More Attention - Neural Architectures for Question-Answering

Arxiv

5+阅读 · 2018年3月25日

Depth-Gated LSTM

Arxiv

4+阅读 · 2015年8月25日

微信扫码咨询专知VIP会员