In this work, we comprehensively reveal the learning dynamics of neural network with normalization, weight decay (WD), and SGD (with momentum), named as Spherical Motion Dynamics (SMD). Most related works study SMD by focusing on "effective learning rate" in "equilibrium" condition, where weight norm remains unchanged. However, their discussions on why equilibrium condition can be reached in SMD is either absent or less convincing. Our work investigates SMD by directly exploring the cause of equilibrium condition. Specifically, 1) we introduce the assumptions that can lead to equilibrium condition in SMD, and prove that weight norm can converge at linear rate with given assumptions; 2) we propose "angular update" as a substitute for effective learning rate to measure the evolving of neural network in SMD, and prove angular update can also converge to its theoretical value at linear rate; 3) we verify our assumptions and theoretical results on various computer vision tasks including ImageNet and MSCOCO with standard settings. Experiment results show our theoretical findings agree well with empirical observations.


翻译:在这项工作中,我们全面揭示了神经网络的学习动态,这些神经网络具有正常化、重量衰减(WD)和SGD(动力),称为球状运动动力(SMD),大多数相关作品都通过侧重于“平衡”条件下的“有效学习率”来研究SMD,其重量标准保持不变。然而,关于为什么在SMD中达到平衡条件的讨论要么不存在,要么不那么令人信服。我们的工作通过直接探索平衡状况的原因对SMD进行调查。具体地说,1我们引入了可能导致SMD中平衡状况的假设,并证明重量标准可以以线性速度与特定假设趋同;2我们建议用“角更新”替代有效学习率来衡量SMD中神经网络的演变,并证明角性更新也可以以线性速度与其理论价值趋同;3我们核查了我们关于各种计算机视觉任务的假设和理论结果,包括图像网和MCCO与标准环境。实验结果表明我们的理论结果与经验观察非常一致。

0
下载
关闭预览

相关内容

专知会员服务
27+阅读 · 2020年10月24日
专知会员服务
15+阅读 · 2020年7月27日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
107+阅读 · 2020年5月15日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
45+阅读 · 2020年1月23日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年1月19日
Arxiv
0+阅读 · 2021年1月19日
Arxiv
0+阅读 · 2021年1月15日
Optimization for deep learning: theory and algorithms
Arxiv
103+阅读 · 2019年12月19日
Arxiv
3+阅读 · 2018年8月17日
VIP会员
相关VIP内容
专知会员服务
27+阅读 · 2020年10月24日
专知会员服务
15+阅读 · 2020年7月27日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
107+阅读 · 2020年5月15日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
45+阅读 · 2020年1月23日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员