The generalization performance of a machine learning algorithm such as a neural network depends in a non-trivial way on the structure of the data distribution. Models of generalization in machine learning theory often ignore the low-dimensional structure of natural signals, either by considering data-agnostic bounds or by studying the performance of the algorithm when trained on uncorrelated features. To analyze the influence of data structure on test loss dynamics, we study an exactly solveable model of stochastic gradient descent (SGD) which predicts test loss when training on features with arbitrary covariance structure. We solve the theory exactly for both Gaussian features and arbitrary features and we show that the simpler Gaussian model accurately predicts test loss of nonlinear random-feature models and deep neural networks trained with SGD on real datasets such as MNIST and CIFAR-10. We show that modeling the geometry of the data in the induced feature space is indeed crucial to accurately predict the test error throughout learning.


翻译:神经网络等机器学习算法的普遍性能取决于数据分布结构的非三进制方式。机器学习理论的概括性模型往往忽视自然信号的低维结构,要么考虑数据-不可知的界限,要么在接受与非气候有关的特征培训时研究算法的性能。为了分析数据结构对试验损失动态的影响,我们研究一种完全可以解决的蒸气梯底部模型,该模型预测在对任意共变结构的特征进行培训时测试损失。我们准确地解决了高斯特征和任意性特征的理论,我们表明,更简单的高斯模型准确预测非线性随机速度模型的测试损失,以及由SGD培训的关于诸如MNIST和CIFAR-10等真实数据集的深线性神经网络。我们表明,对引物空间的数据的几何测量进行建模,对于在整个学习过程中准确预测试验错误确实至关重要。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
笔记 | 吴恩达Coursera Deep Learning学习笔记
AI100
4+阅读 · 2017年9月27日
Arxiv
0+阅读 · 2021年7月29日
Arxiv
64+阅读 · 2021年6月18日
Review: deep learning on 3D point clouds
Arxiv
5+阅读 · 2020年1月17日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Arxiv
17+阅读 · 2019年3月28日
Arxiv
5+阅读 · 2018年6月12日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
笔记 | 吴恩达Coursera Deep Learning学习笔记
AI100
4+阅读 · 2017年9月27日
相关论文
Arxiv
0+阅读 · 2021年7月29日
Arxiv
64+阅读 · 2021年6月18日
Review: deep learning on 3D point clouds
Arxiv
5+阅读 · 2020年1月17日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Arxiv
17+阅读 · 2019年3月28日
Arxiv
5+阅读 · 2018年6月12日
Top
微信扫码咨询专知VIP会员