用反向传播方法训练深度残差神经网络(ResNets)的记忆成本随网络深度的增加而线性增加。规避这个问题的一种方法是使用可逆的架构。本文提出通过增加动量项来改变ResNet的正向规则。所得到的网络,动量剩余神经网络(动量ResNets)是可逆的。与以前的可逆架构不同,它们可以作为任何现有的ResNet块的替代。我们证明动量ResNets可以被解释为二阶常微分方程(ode),并准确地描述了如何逐步增加动量增加动量ResNets的表示能力。我们的分析显示,Momentum ResNets可以学习任何线性映射到一个倍增因子,而ResNets不能。在优化设置的学习中,需要收敛到一个不动点,我们从理论上和经验上证明了我们的方法成功,而现有的可逆架构失败。我们在CIFAR和ImageNet上展示了Momentum ResNets与ResNets具有相同的精度,但占用的内存要小得多,并展示了预训练的Momentum ResNets对模型的微调是有前途的。

https://www.zhuanzhi.ai/paper/867b3834167694dab97cf812135dc273

成为VIP会员查看完整内容
28

相关内容

专知会员服务
18+阅读 · 2021年9月16日
专知会员服务
24+阅读 · 2021年8月11日
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
10+阅读 · 2021年6月20日
专知会员服务
38+阅读 · 2021年6月11日
专知会员服务
19+阅读 · 2021年5月30日
专知会员服务
11+阅读 · 2021年5月26日
专知会员服务
80+阅读 · 2021年5月10日
深度互学习-Deep Mutual Learning:三人行必有我师
深度学习大讲堂
7+阅读 · 2019年6月27日
ResNet及其变种的结构梳理、有效性分析与代码解读
人工智能前沿讲习班
5+阅读 · 2019年6月26日
一文简述ResNet及其多种变体
机器之心
23+阅读 · 2018年4月22日
贝叶斯机器学习前沿进展
架构文摘
12+阅读 · 2018年2月11日
Bayesian Attention Belief Networks
Arxiv
9+阅读 · 2021年6月9日
Arxiv
7+阅读 · 2021年5月13日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
Sparse Sequence-to-Sequence Models
Arxiv
5+阅读 · 2019年5月14日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
7+阅读 · 2018年12月10日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
11+阅读 · 2018年1月28日
VIP会员
相关VIP内容
专知会员服务
18+阅读 · 2021年9月16日
专知会员服务
24+阅读 · 2021年8月11日
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
10+阅读 · 2021年6月20日
专知会员服务
38+阅读 · 2021年6月11日
专知会员服务
19+阅读 · 2021年5月30日
专知会员服务
11+阅读 · 2021年5月26日
专知会员服务
80+阅读 · 2021年5月10日
相关论文
Bayesian Attention Belief Networks
Arxiv
9+阅读 · 2021年6月9日
Arxiv
7+阅读 · 2021年5月13日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
Sparse Sequence-to-Sequence Models
Arxiv
5+阅读 · 2019年5月14日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
7+阅读 · 2018年12月10日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
11+阅读 · 2018年1月28日
微信扫码咨询专知VIP会员