Neural Tangent Kernel (NTK) theory is widely used to study the dynamics of infinitely-wide deep neural networks (DNNs) under gradient descent. But do the results for infinitely-wide networks give us hints about the behavior of real finite-width ones? In this paper, we study empirically when NTK theory is valid in practice for fully-connected ReLU and sigmoid DNNs. We find out that whether a network is in the NTK regime depends on the hyperparameters of random initialization and the network's depth. In particular, NTK theory does not explain the behavior of sufficiently deep networks initialized so that their gradients explode as they propagate through the network's layers: the kernel is random at initialization and changes significantly during training in this case, contrary to NTK theory. On the other hand, in the case of vanishing gradients, DNNs are in the the NTK regime but become untrainable rapidly with depth. We also describe a framework to study generalization properties of DNNs, in particular the variance of network's output function, by means of NTK theory and discuss its limits.


翻译:NTK 理论被广泛用于研究无穷无尽深层神经网络(DNN)在梯度下下降的动态。 但无穷无尽的网络结果是否给我们关于真正有限宽度网络行为的提示? 在本文中,当NTK理论在完全连通的ReLU和Sigmoid DNNS的实践中有效时,我们从经验上研究NTK理论。我们发现,一个网络是否在NTK系统中,取决于随机初始化的超参数和网络深度。特别是,NTK理论没有解释足够深的初始化网络的行为,因此其梯度在通过网络层传播时会爆炸:在初始化时,在培训期间,与NTK理论相反,核心是随机的,发生重大变化。另一方面,在消失梯度方面,DNNNS处于NT制度之中,但变得不易深度。我们还描述了一个框架,用来研究DNNS的一般特性,特别是网络输出功能的差异,通过理论和网络输出极限的手段来讨论。

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
专知会员服务
50+阅读 · 2020年12月14日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
70+阅读 · 2020年8月2日
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
146+阅读 · 2020年6月28日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
30+阅读 · 2020年4月15日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
NIPS 2017:贝叶斯深度学习与深度贝叶斯学习(讲义+视频)
机器学习研究会
36+阅读 · 2017年12月10日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Properties of the After Kernel
Arxiv
0+阅读 · 2021年5月27日
Arxiv
1+阅读 · 2021年5月27日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
6+阅读 · 2018年10月3日
VIP会员
相关资讯
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
NIPS 2017:贝叶斯深度学习与深度贝叶斯学习(讲义+视频)
机器学习研究会
36+阅读 · 2017年12月10日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员