Recent studies revealed the mathematical connection of deep neural network (DNN) and dynamic system. However, the fundamental principle of DNN has not been fully characterized with dynamic system in terms of optimization and generalization. To this end, we build the connection of DNN and continuity equation where the measure is conserved to model the forward propagation process of DNN which has not been addressed before. DNN learns the transformation of the input distribution to the output one. However, in the measure space, there are infinite curves connecting two distributions. Which one can lead to good optimization and generaliztion for DNN? By diving the optimal transport theory, we find DNN with weight decay attempts to learn the geodesic curve in the Wasserstein space, which is induced by the optimal transport map. Compared with plain network, ResNet is a better approximation to the geodesic curve, which explains why ResNet can be optimized and generalize better. Numerical experiments show that the data tracks of both plain network and ResNet tend to be line-shape in term of line-shape score (LSS), and the map learned by ResNet is closer to the optimal transport map in term of optimal transport score (OTS). In a word, we conclude a mathematical principle of deep learning is to learn the geodesic curve in the Wasserstein space; and deep learning is a great engineering realization of continuous transformation in high-dimensional space.


翻译:最近的研究揭示了深神经网络(DNN)和动态系统的数学联系。 但是, DNN 的基本原则并没有在优化和概括方面以动态系统为充分特征, 在优化和概括方面以动态系统为特征。 为此,我们构建了 DNN 和连续性方程式的连接, 使该措施得以保存, 以模拟 DNN 的前瞻性传播过程, 而这个过程以前没有被处理过 。 DNN 学会了输入分布转换到输出的模型。 但是, 在测量空间里, 有连接两个分布的无限曲线。 通过跳下最佳运输理论, DNNN 能够带来良好的优化和概括化? 我们发现 DNN 的重量衰减尝试是为了在瓦塞斯坦空间空间空间中学习大地曲线。 与普通网络相比, ResNet 是一个更好的近似于大地曲线的近似值, 这解释了ResNet 和ResNet的数据轨迹在线形评(LSS ), 而由 ResNet 所学的地图在深层空间工程中更接近于一个最精确的路径学得的轨道。

0
下载
关闭预览

相关内容

神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
29+阅读 · 2020年4月15日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
笔记 | 吴恩达Coursera Deep Learning学习笔记
AI100
4+阅读 · 2017年9月27日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年4月26日
Arxiv
11+阅读 · 2021年3月25日
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
Arxiv
11+阅读 · 2018年7月8日
Arxiv
7+阅读 · 2018年5月23日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
笔记 | 吴恩达Coursera Deep Learning学习笔记
AI100
4+阅读 · 2017年9月27日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员