随着神经网络训练,参数的分布是怎么变化的?

之前看到一句话“随着网络深度加深或者在训练过程中,其分布逐渐发生偏移或者变动,之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠…
关注者
268
被浏览
86,761
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

2019.11.28更新:

再放一个我刚刚对一群网络跑出来的权重分布,用的pytorch的初始化,即在一定范围内的平均分布。结果挺神奇:

weight1
bias1
weight2
bias2
weight3
bias3


================================================

最近在思考相关的问题,搜索了一下有关文章。没找到更多的了。欢迎补充~

0. Bellido, I., and Emile Fiesler. "Do backpropagation trained neural networks have normal weight distributions?."International Conference on Artificial Neural Networks. Springer, London, 1993.

运用了两种统计工具来判断权重是否符合正态分布。结果显示对大部分他们训练的网络,正态分布的假设被否定,p-value小于0.005。

  1. Gallagher, Marcus, and Tom Downs. "Weight space learning trajectory visualization."Proc. Eighth Australian Conference on Neural Networks, Melbourne. 1997.

上古时期的工作,对简单的MLP的权重做PCA并画出了其随学习过程的变化。

2. Go, Jinwook, and Chulhee Lee. "Analyzing weight distribution of neural networks."IJCNN'99. International Joint Conference on Neural Networks. Proceedings (Cat. No. 99CH36339). Vol. 2. IEEE, 1999.

他们分析权重分布来试图为权重的初始化方案提供参考。

3. medium.com/@saikumar.ga

这篇blog在mnist上训练,发现如果权重使用高斯分布(或平均分布)初始化,那么训练完成也近似是高斯分布(或平均分布)。

4. Ahmed, Muhammad Atta Othman. "Trained neural networks ensembles weight connections analysis."International Conference on Advanced Machine Learning Technologies and Applications. Springer, Cham, 2018.

检验训练的权重分布,发现t-Location Scale distribution能最好地拟合大部分数据。

5. 两篇2019年的生成权重的文章,和这个问题也有间接联系。文章挺有趣的。

Deutsch, Lior, Erik Nijkamp, and Yu Yang. "A Generative Model for Sampling High-Performance and Diverse Weights for Neural Networks."arXiv preprint arXiv:1905.02898(2019).

Ratzlaff, Neale, and Li Fuxin. "HyperGAN: A Generative Model for Diverse, Performant Neural Networks."arXiv preprint arXiv:1901.11058(2019).

6. Barbour, Boris, et al. "What can we learn from synaptic weight distributions?."TRENDS in Neurosciences30.12 (2007): 622-629.

讨论了一下生物中神经元网络的权重分布。看个图就行了,对deep learning并没有用。