【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training - 专知VIP

会员服务 ·

0

Facebook AI Research · ICLR · 人工神经网络 · 训练 ·

2020 年 3 月 3 日

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

最近的研究表明，神经网络学习的许多重要方面都发生在训练的最早阶段。例如，稀疏的、可训练的子网络出现(Frankle et al.， 2019)，梯度下降移动到一个小的子空间(guri - ari et al.， 2018)，网络经历一个关键时期(Achille et al.， 2019)。在这里，我们检查了深层神经网络在早期训练阶段所经历的变化。在这些早期的训练迭代中，我们对网络状态进行了广泛的测量，并利用Frankle等人(2019)的框架来定量探测权重分布及其对数据集各个方面的依赖。我们发现，在这个框架中，深度网络在保持符号的同时，对随机权值的重新初始化不够健壮，并且即使经过几百次迭代，权值的分布仍然是非独立的。尽管存在这种行为，使用模糊输入或辅助自监督任务的预训练可以近似监督网络中的变化，这表明这些变化并不是固有的标签依赖，尽管标签显著地加速了这一过程。综上所述，这些结果有助于阐明在学习的关键初始阶段所发生的网络变化。

成为VIP会员查看完整内容

18

相关内容

Facebook AI Research

Facebook AI Research

Facebook AI Research

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

MorphNet：致力打造规模更小、速度更快的神经网络

MorphNet：致力打造规模更小、速度更快的神经网络

谷歌开发者

6+阅读 · 2019年5月6日

Google：数据并行对神经网络训练用时的影响

Google：数据并行对神经网络训练用时的影响

论智

4+阅读 · 2018年11月27日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

中国人工智能学会

6+阅读 · 2018年7月4日

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

机器之心

4+阅读 · 2018年1月7日

A Simple Framework for Contrastive Learning of Visual Representations

Arxiv

21+阅读 · 2020年2月13日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

MaskRNN: Instance Level Video Object Segmentation

Arxiv

6+阅读 · 2018年3月29日

Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns

Arxiv

7+阅读 · 2018年3月20日

What Does a TextCNN Learn?

Arxiv

8+阅读 · 2018年1月19日

VIP会员

相关主题

Facebook AI Research

人工神经网络

相关VIP内容

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

美海军作战管理系统：变革战场空间的二十年

【MIT博士论文】以语言为中心的医学影像理解

俄罗斯“沙希德”/“天竺葵”攻击无人机

相关资讯

MorphNet：致力打造规模更小、速度更快的神经网络

MorphNet：致力打造规模更小、速度更快的神经网络

谷歌开发者

6+阅读 · 2019年5月6日

Google：数据并行对神经网络训练用时的影响

Google：数据并行对神经网络训练用时的影响

论智

4+阅读 · 2018年11月27日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

中国人工智能学会

6+阅读 · 2018年7月4日

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

机器之心

4+阅读 · 2018年1月7日

相关论文

A Simple Framework for Contrastive Learning of Visual Representations

Arxiv

21+阅读 · 2020年2月13日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

MaskRNN: Instance Level Video Object Segmentation

Arxiv

6+阅读 · 2018年3月29日

Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns

Arxiv

7+阅读 · 2018年3月20日

What Does a TextCNN Learn?

Arxiv

8+阅读 · 2018年1月19日

微信扫码咨询专知VIP会员