面试题：人工神经网络中为什么ReLu要好过于tanh和sigmoid？ - 专知

会员服务 ·

0

面试题：人工神经网络中为什么ReLu要好过于tanh和sigmoid？

2019 年 6 月 11 日 七月在线实验室

阅读原文无聊的猫gif动图

为什么ReLu要好过于tanh和sigmoid？

解析：

先看sigmoid、tanh和RelU的函数图：

第一，采用sigmoid等函数，算激活函数时（指数运算），计算量大。

反向传播求误差梯度时，求导涉及除法和指数运算，计算量相对大，而采用Relu激活函数，整个过程的计算量节省很多。

第二，对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失。），这种现象称为饱和，从而无法完成深层网络的训练。

而ReLU就不会有饱和倾向，不会有特别小的梯度出现。

第三，Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生（以及一些人的生物解释balabala）。

当然现在也有一些对relu的改进，比如prelu，random relu等，在不同的数据集上会有一些训练速度上或者准确率上的改进，具体的大家可以找相关的paper看。

多加一句，现在主流的做法，会多做一步batch normalization，尽可能保证每一层网络的输入具有相同的分布[1]。

而最新的paper[2]，他们在加入bypass connection之后，发现改变batch normalization的位置会有更好的效果。大家有兴趣可以看下。

[1] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167, 2015.

[2] He, Kaiming, et al. "Identity Mappings in Deep Residual Networks." arXiv preprint arXiv:1603.05027 (2016).
本题解析来源：@Begin Again，
链接：https://www.zhihu.com/question/29021768

BAT大咖1V1教学!

名企面试官亲自辅导面试!

助你3个月拿到30万年薪！

让你“薪”满意足！

↓扫码查看课程详情↓

10分钟入门推荐系统，这份有实战、有代码的资料火了！

数学差，连机器学习都做不了吗？（文末送课送电影票！）

戳 “阅读原文”查看课程一起进步！

你在看吗？

登录查看更多

6

相关内容

Sigmoid（一种激活函数）

Sigmoid（一种激活函数）

【Google】平滑对抗训练，Smooth Adversarial Training

【Google】平滑对抗训练，Smooth Adversarial Training

专知会员服务

49+阅读 · 2020年7月4日

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

专知会员服务

231+阅读 · 2020年6月5日

【ICML2020-哈佛】深度语言表示中可分流形

【ICML2020-哈佛】深度语言表示中可分流形

专知会员服务

13+阅读 · 2020年6月2日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients

为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients

专知会员服务

17+阅读 · 2020年4月2日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【ICLR2020】胶囊与反向路由点积注意力

专知会员服务

27+阅读 · 2020年2月15日

《C++ Primer中文版第5版》电子书与学习笔记和课后练习答案

《C++ Primer中文版第5版》电子书与学习笔记和课后练习答案

专知会员服务

276+阅读 · 2020年2月13日

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

专知会员服务

287+阅读 · 2019年12月2日

BAT机器学习面试1000题（716~720题）

BAT机器学习面试1000题（716~720题）

七月在线实验室

19+阅读 · 2018年12月17日

深度学习面试100题（第81-85题）

深度学习面试100题（第81-85题）

七月在线实验室

17+阅读 · 2018年8月6日

深度学习面试100题（第76-80题）

深度学习面试100题（第76-80题）

七月在线实验室

6+阅读 · 2018年8月3日

深度学习面试100题（第41-45题）

深度学习面试100题（第41-45题）

七月在线实验室

15+阅读 · 2018年7月18日

深度学习面试100题（第31-35题）

深度学习面试100题（第31-35题）

七月在线实验室

8+阅读 · 2018年7月16日

激活函数初学者指南

激活函数初学者指南

论智

6+阅读 · 2018年5月15日

入门 | 一文了解神经网络中的梯度爆炸

入门 | 一文了解神经网络中的梯度爆炸

机器之心

8+阅读 · 2017年12月22日

最近流行的激活函数

最近流行的激活函数

计算机视觉战队

6+阅读 · 2017年11月27日

干货 | 深度学习之损失函数与激活函数的选择

干货 | 深度学习之损失函数与激活函数的选择

机器学习算法与Python学习

15+阅读 · 2017年9月18日

人工神经网络

人工神经网络

平均机器

15+阅读 · 2017年7月17日

Towards Backward-Compatible Representation Learning

Arxiv

5+阅读 · 2020年3月26日

Bivariate Beta LSTM

Bivariate Beta LSTM

Arxiv

6+阅读 · 2019年10月7日

Attributed Network Embedding via Subspace Discovery

Arxiv

4+阅读 · 2019年1月14日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

Retrospective correction of Rigid and Non-Rigid MR motion artifacts using GANs

Retrospective correction of Rigid and Non-Rigid MR motion artifacts using GANs

Arxiv

3+阅读 · 2018年9月17日

Neural Arithmetic Logic Units

Neural Arithmetic Logic Units

Arxiv

5+阅读 · 2018年8月1日

Asynchronous Byzantine Machine Learning (the case of SGD)

Arxiv

3+阅读 · 2018年7月9日

Improving GAN Training via Binarized Representation Entropy (BRE) Regularization

Arxiv

4+阅读 · 2018年5月9日

Weakly Supervised Object Detection with Pointwise Mutual Information

Arxiv

5+阅读 · 2018年1月26日

Latent nested nonparametric priors

Arxiv

4+阅读 · 2018年1月15日

VIP会员

相关主题

Sigmoid（一种激活函数）

人工神经网络

相关VIP内容

【Google】平滑对抗训练，Smooth Adversarial Training

【Google】平滑对抗训练，Smooth Adversarial Training

专知会员服务

49+阅读 · 2020年7月4日

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

专知会员服务

231+阅读 · 2020年6月5日

【ICML2020-哈佛】深度语言表示中可分流形

【ICML2020-哈佛】深度语言表示中可分流形

专知会员服务

13+阅读 · 2020年6月2日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients

为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients

专知会员服务

17+阅读 · 2020年4月2日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【ICLR2020】胶囊与反向路由点积注意力

专知会员服务

27+阅读 · 2020年2月15日

《C++ Primer中文版第5版》电子书与学习笔记和课后练习答案

《C++ Primer中文版第5版》电子书与学习笔记和课后练习答案

专知会员服务

276+阅读 · 2020年2月13日

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

专知会员服务

287+阅读 · 2019年12月2日

热门VIP内容

开通专知VIP会员享更多权益服务

《代码、指挥与冲突：描绘军事人工智能的未来》报告

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

美国启动“自有军事人工智能计划”：采用谷歌Gemini以推动全军人工智能应用

《创新与适应性作为军事成功的关键因素：来自俄乌战争的战略洞见》报告

相关资讯

BAT机器学习面试1000题（716~720题）

BAT机器学习面试1000题（716~720题）

七月在线实验室

19+阅读 · 2018年12月17日

深度学习面试100题（第81-85题）

深度学习面试100题（第81-85题）

七月在线实验室

17+阅读 · 2018年8月6日

深度学习面试100题（第76-80题）

深度学习面试100题（第76-80题）

七月在线实验室

6+阅读 · 2018年8月3日

深度学习面试100题（第41-45题）

深度学习面试100题（第41-45题）

七月在线实验室

15+阅读 · 2018年7月18日

深度学习面试100题（第31-35题）

深度学习面试100题（第31-35题）

七月在线实验室

8+阅读 · 2018年7月16日

激活函数初学者指南

激活函数初学者指南

论智

6+阅读 · 2018年5月15日

入门 | 一文了解神经网络中的梯度爆炸

入门 | 一文了解神经网络中的梯度爆炸

机器之心

8+阅读 · 2017年12月22日

最近流行的激活函数

最近流行的激活函数

计算机视觉战队

6+阅读 · 2017年11月27日

干货 | 深度学习之损失函数与激活函数的选择

干货 | 深度学习之损失函数与激活函数的选择

机器学习算法与Python学习

15+阅读 · 2017年9月18日

人工神经网络

人工神经网络

平均机器

15+阅读 · 2017年7月17日

相关论文

Towards Backward-Compatible Representation Learning

Arxiv

5+阅读 · 2020年3月26日

Bivariate Beta LSTM

Bivariate Beta LSTM

Arxiv

6+阅读 · 2019年10月7日

Attributed Network Embedding via Subspace Discovery

Arxiv

4+阅读 · 2019年1月14日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

Retrospective correction of Rigid and Non-Rigid MR motion artifacts using GANs

Retrospective correction of Rigid and Non-Rigid MR motion artifacts using GANs

Arxiv

3+阅读 · 2018年9月17日

Neural Arithmetic Logic Units

Neural Arithmetic Logic Units

Arxiv

5+阅读 · 2018年8月1日

Asynchronous Byzantine Machine Learning (the case of SGD)

Arxiv

3+阅读 · 2018年7月9日

Improving GAN Training via Binarized Representation Entropy (BRE) Regularization

Arxiv

4+阅读 · 2018年5月9日

Weakly Supervised Object Detection with Pointwise Mutual Information

Arxiv

5+阅读 · 2018年1月26日

Latent nested nonparametric priors

Arxiv

4+阅读 · 2018年1月15日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员