最近的研究表明,神经网络学习的许多重要方面都发生在训练的最早阶段。例如,稀疏的、可训练的子网络出现(Frankle et al., 2019),梯度下降移动到一个小的子空间(guri - ari et al., 2018),网络经历一个关键时期(Achille et al., 2019)。在这里,我们检查了深层神经网络在早期训练阶段所经历的变化。在这些早期的训练迭代中,我们对网络状态进行了广泛的测量,并利用Frankle等人(2019)的框架来定量探测权重分布及其对数据集各个方面的依赖。我们发现,在这个框架中,深度网络在保持符号的同时,对随机权值的重新初始化不够健壮,并且即使经过几百次迭代,权值的分布仍然是非独立的。尽管存在这种行为,使用模糊输入或辅助自监督任务的预训练可以近似监督网络中的变化,这表明这些变化并不是固有的标签依赖,尽管标签显著地加速了这一过程。综上所述,这些结果有助于阐明在学习的关键初始阶段所发生的网络变化。

成为VIP会员查看完整内容
18

相关内容

【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
75+阅读 · 2020年4月24日
MorphNet:致力打造规模更小、速度更快的神经网络
谷歌开发者
6+阅读 · 2019年5月6日
Google:数据并行对神经网络训练用时的影响
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
当前训练神经网络最快的方式:AdamW优化算法+超级收敛
中国人工智能学会
6+阅读 · 2018年7月4日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
8+阅读 · 2018年1月19日
VIP会员
相关资讯
MorphNet:致力打造规模更小、速度更快的神经网络
谷歌开发者
6+阅读 · 2019年5月6日
Google:数据并行对神经网络训练用时的影响
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
当前训练神经网络最快的方式:AdamW优化算法+超级收敛
中国人工智能学会
6+阅读 · 2018年7月4日
相关论文
微信扫码咨询专知VIP会员