Dropout是一种广泛使用的正则化技术,通常需要为许多体系结构获得最先进的技术。这项工作表明,dropout引入了两种截然不同但相互纠缠的正则化效应:由于dropout修改了预期的训练目标而产生的显式效应(在之前的工作中也研究过),以及可能令人惊讶的是,dropout训练更新中的随机性带来的另一种隐式效应。这种隐式正则化效应类似于小批量随机梯度下降中的随机度效应。我们通过控制实验把这两种效应分开。然后,我们推导出分析的简化,用模型的导数和损失来描述每个影响,对于深度神经网络。我们证明了这些简化的、解析的正则化器准确地捕获了辍学的重要方面,表明它们在实践中忠实地替代了dropout。

成为VIP会员查看完整内容
32

相关内容

Dropout就是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。Dropout可以减轻过拟合问题。
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
146+阅读 · 2020年6月28日
【ICML2020】小样本目标检测
专知会员服务
90+阅读 · 2020年6月2日
专知会员服务
107+阅读 · 2020年5月21日
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
从零开始深度学习:dropout与正则化
数萃大数据
7+阅读 · 2018年7月22日
深度学习面试100题(第31-35题)
七月在线实验室
8+阅读 · 2018年7月16日
L2正则化视角下的对抗样本
极市平台
7+阅读 · 2018年7月13日
入门 | 深度学习模型的简单优化技巧
机器之心
9+阅读 · 2018年6月10日
BAT题库 | 机器学习面试1000题系列(第196~200题)
七月在线实验室
17+阅读 · 2017年11月16日
Bivariate Beta LSTM
Arxiv
5+阅读 · 2019年10月7日
Position-aware Graph Neural Networks
Arxiv
15+阅读 · 2019年6月11日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
Arxiv
3+阅读 · 2017年7月6日
VIP会员
相关资讯
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
从零开始深度学习:dropout与正则化
数萃大数据
7+阅读 · 2018年7月22日
深度学习面试100题(第31-35题)
七月在线实验室
8+阅读 · 2018年7月16日
L2正则化视角下的对抗样本
极市平台
7+阅读 · 2018年7月13日
入门 | 深度学习模型的简单优化技巧
机器之心
9+阅读 · 2018年6月10日
BAT题库 | 机器学习面试1000题系列(第196~200题)
七月在线实验室
17+阅读 · 2017年11月16日
相关论文
Bivariate Beta LSTM
Arxiv
5+阅读 · 2019年10月7日
Position-aware Graph Neural Networks
Arxiv
15+阅读 · 2019年6月11日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
Arxiv
3+阅读 · 2017年7月6日
微信扫码咨询专知VIP会员