【ICML2021】动量残差神经网络 - 专知VIP

会员服务 ·

1

残差神经网络 ·

2021 年 7 月 19 日

【ICML2021】动量残差神经网络

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

用反向传播方法训练深度残差神经网络(ResNets)的记忆成本随网络深度的增加而线性增加。规避这个问题的一种方法是使用可逆的架构。本文提出通过增加动量项来改变ResNet的正向规则。所得到的网络，动量剩余神经网络(动量ResNets)是可逆的。与以前的可逆架构不同，它们可以作为任何现有的ResNet块的替代。我们证明动量ResNets可以被解释为二阶常微分方程(ode)，并准确地描述了如何逐步增加动量增加动量ResNets的表示能力。我们的分析显示，Momentum ResNets可以学习任何线性映射到一个倍增因子，而ResNets不能。在优化设置的学习中，需要收敛到一个不动点，我们从理论上和经验上证明了我们的方法成功，而现有的可逆架构失败。我们在CIFAR和ImageNet上展示了Momentum ResNets与ResNets具有相同的精度，但占用的内存要小得多，并展示了预训练的Momentum ResNets对模型的微调是有前途的。

https://www.zhuanzhi.ai/paper/867b3834167694dab97cf812135dc273

成为VIP会员查看完整内容

28

相关内容

【ICML2021】无训练神经架构搜索

专知会员服务

18+阅读 · 2021年9月16日

【ICML2021】深度核过程

专知会员服务

24+阅读 · 2021年8月11日

【ICML2021】弹性图神经网络

专知会员服务

36+阅读 · 2021年7月17日

【ICML2021】双加速的快速间隔最大化

专知会员服务

11+阅读 · 2021年7月4日

【ICML2021】基于低秩重参数化的大规模私有学习

专知会员服务

10+阅读 · 2021年6月20日

【ICML2021】贝叶斯注意力信念网络

专知会员服务

38+阅读 · 2021年6月11日

【ICML2021】深度残差网络的可扩展特性

专知会员服务

19+阅读 · 2021年5月30日

【ICML2021】神经切线核训练动力学的架构通用性

专知会员服务

11+阅读 · 2021年5月26日

【ICML2021】图神经网络优化：通过跳过连接和更多深度隐含加速

专知会员服务

33+阅读 · 2021年5月17日

【ICML2021】有向图网络

专知会员服务

80+阅读 · 2021年5月10日

深度互学习-Deep Mutual Learning：三人行必有我师

深度互学习-Deep Mutual Learning：三人行必有我师

深度学习大讲堂

7+阅读 · 2019年6月27日

ResNet及其变种的结构梳理、有效性分析与代码解读

ResNet及其变种的结构梳理、有效性分析与代码解读

人工智能前沿讲习班

5+阅读 · 2019年6月26日

学界 | 浙大&川大提出脉冲版ResNet：继承ResNet优势，实现当前最佳

学界 | 浙大&川大提出脉冲版ResNet：继承ResNet优势，实现当前最佳

机器之心

3+阅读 · 2018年5月12日

一文简述ResNet及其多种变体

一文简述ResNet及其多种变体

机器之心

23+阅读 · 2018年4月22日

观点 | 1cycle策略：实践中的学习率设定应该是先增再降

观点 | 1cycle策略：实践中的学习率设定应该是先增再降

机器之心

4+阅读 · 2018年4月19日

观点 | 增加深度，加速神经网络优化？这是一份反直觉的实验结果

观点 | 增加深度，加速神经网络优化？这是一份反直觉的实验结果

机器之心

4+阅读 · 2018年3月17日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

架构文摘

12+阅读 · 2018年2月11日

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

机器之心

4+阅读 · 2018年1月7日

Facebook FAIR实验室田渊栋等人最新论文：别担心深度网络中的虚假局部极小值

Facebook FAIR实验室田渊栋等人最新论文：别担心深度网络中的虚假局部极小值

专知

6+阅读 · 2017年12月8日

Bayesian Attention Belief Networks

Bayesian Attention Belief Networks

Arxiv

9+阅读 · 2021年6月9日

Momentum Residual Neural Networks

Arxiv

7+阅读 · 2021年5月13日

Knowledge Distillation from Internal Representations

Knowledge Distillation from Internal Representations

Arxiv

4+阅读 · 2019年10月8日

Sparse Sequence-to-Sequence Models

Sparse Sequence-to-Sequence Models

Arxiv

5+阅读 · 2019年5月14日

Visualizing Attention in Transformer-Based Language Representation Models

Visualizing Attention in Transformer-Based Language Representation Models

Arxiv

3+阅读 · 2019年4月11日

An End-to-End Baseline for Video Captioning

Arxiv

6+阅读 · 2019年4月4日

ShelfNet for Real-time Semantic Segmentation

Arxiv

7+阅读 · 2018年12月10日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

Multi-scale Location-aware Kernel Representation for Object Detection

Arxiv

5+阅读 · 2018年4月2日

HONE: Higher-Order Network Embeddings

Arxiv

11+阅读 · 2018年1月28日

VIP会员

相关主题

残差神经网络

相关VIP内容

【ICML2021】无训练神经架构搜索

专知会员服务

18+阅读 · 2021年9月16日

【ICML2021】深度核过程

专知会员服务

24+阅读 · 2021年8月11日

【ICML2021】弹性图神经网络

专知会员服务

36+阅读 · 2021年7月17日

【ICML2021】双加速的快速间隔最大化

专知会员服务

11+阅读 · 2021年7月4日

【ICML2021】基于低秩重参数化的大规模私有学习

专知会员服务

10+阅读 · 2021年6月20日

【ICML2021】贝叶斯注意力信念网络

专知会员服务

38+阅读 · 2021年6月11日

【ICML2021】深度残差网络的可扩展特性

专知会员服务

19+阅读 · 2021年5月30日

【ICML2021】神经切线核训练动力学的架构通用性

专知会员服务

11+阅读 · 2021年5月26日

【ICML2021】图神经网络优化：通过跳过连接和更多深度隐含加速

专知会员服务

33+阅读 · 2021年5月17日

【ICML2021】有向图网络

专知会员服务

80+阅读 · 2021年5月10日

热门VIP内容

相关资讯

深度互学习-Deep Mutual Learning：三人行必有我师

深度互学习-Deep Mutual Learning：三人行必有我师

深度学习大讲堂

7+阅读 · 2019年6月27日

ResNet及其变种的结构梳理、有效性分析与代码解读

ResNet及其变种的结构梳理、有效性分析与代码解读

人工智能前沿讲习班

5+阅读 · 2019年6月26日

学界 | 浙大&川大提出脉冲版ResNet：继承ResNet优势，实现当前最佳

学界 | 浙大&川大提出脉冲版ResNet：继承ResNet优势，实现当前最佳

机器之心

3+阅读 · 2018年5月12日

一文简述ResNet及其多种变体

一文简述ResNet及其多种变体

机器之心

23+阅读 · 2018年4月22日

观点 | 1cycle策略：实践中的学习率设定应该是先增再降

观点 | 1cycle策略：实践中的学习率设定应该是先增再降

机器之心

4+阅读 · 2018年4月19日

观点 | 增加深度，加速神经网络优化？这是一份反直觉的实验结果

观点 | 增加深度，加速神经网络优化？这是一份反直觉的实验结果

机器之心

4+阅读 · 2018年3月17日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

架构文摘

12+阅读 · 2018年2月11日

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

机器之心

4+阅读 · 2018年1月7日

Facebook FAIR实验室田渊栋等人最新论文：别担心深度网络中的虚假局部极小值

Facebook FAIR实验室田渊栋等人最新论文：别担心深度网络中的虚假局部极小值

专知

6+阅读 · 2017年12月8日

相关论文

Bayesian Attention Belief Networks

Bayesian Attention Belief Networks

Arxiv

9+阅读 · 2021年6月9日

Momentum Residual Neural Networks

Arxiv

7+阅读 · 2021年5月13日

Knowledge Distillation from Internal Representations

Knowledge Distillation from Internal Representations

Arxiv

4+阅读 · 2019年10月8日

Sparse Sequence-to-Sequence Models

Sparse Sequence-to-Sequence Models

Arxiv

5+阅读 · 2019年5月14日

Visualizing Attention in Transformer-Based Language Representation Models

Visualizing Attention in Transformer-Based Language Representation Models

Arxiv

3+阅读 · 2019年4月11日

An End-to-End Baseline for Video Captioning

Arxiv

6+阅读 · 2019年4月4日

ShelfNet for Real-time Semantic Segmentation

Arxiv

7+阅读 · 2018年12月10日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

Multi-scale Location-aware Kernel Representation for Object Detection

Arxiv

5+阅读 · 2018年4月2日

HONE: Higher-Order Network Embeddings

Arxiv

11+阅读 · 2018年1月28日

微信扫码咨询专知VIP会员