This article addresses several fundamental issues associated with the approximation theory of neural networks, including the characterization of approximation spaces, the determination of the metric entropy of these spaces, and approximation rates of neural networks. For any activation function $\sigma$, we show that the largest Banach space of functions which can be efficiently approximated by the corresponding shallow neural networks is the space whose norm is given by the gauge of the closed convex hull of the set $\{\pm\sigma(\omega\cdot x + b)\}$. We characterize this space for the ReLU$^k$ and cosine activation functions and, in particular, show that the resulting gauge space is equivalent to the spectral Barron space if $\sigma=\cos$ and is equivalent to the Barron space when $\sigma={\rm ReLU}$. Our main result establishes the precise asymptotics of the $L^2$-metric entropy of the unit ball of these guage spaces and, as a consequence, the optimal approximation rates for shallow ReLU$^k$ networks. The sharpest previous results hold only in the special case that $k=0$ and $d=2$, where the metric entropy has been determined up to logarithmic factors. When $k > 0$ or $d > 2$, there is a significant gap between the previous best upper and lower bounds. We close all of these gaps and determine the precise asymptotics of the metric entropy for all $k \geq 0$ and $d\geq 2$, including removing the logarithmic factors previously mentioned. Finally, we use these results to quantify how much is lost by Barron's spectral condition relative to the convex hull of $\{\pm\sigma(\omega\cdot x + b)\}$ when $\sigma={\rm ReLU}^k$. Finally, we also show that the orthogonal greedy algorithm can algorithmically realize the improved approximation rates which have been derived.


翻译:此文章涉及与神经网络近似理论相关的若干基本问题, 包括近似空间的定性, 确定这些空间的公吨值, 以及神经网络的近似率。 对于任何激活功能 $\ sgma$, 我们显示最大的 Banach 功能空间, 可以被相应的浅色神经网络有效近似, 其标准由设置 $\ pm\ sgma (\ omega\ cddd x + b) 的闭合 convex 柱体的仪表给定。 我们给RU$ 的近似值和 cosine 激活功能设定了这个空间, 特别是, 如果 $\ gigma\ co$, 且当 $\ maqrq REU} 时, 最大Banchreach 空间的仪表空间相当于光谱, 美元 = $ rqrqrq rq ; 我们的主要结果确定, 美元 美元 美元 = 美元 内基 的单位球时, 美元 数 的值 值 值 值 值 值 值 值值值 值 值 值 值 值 值值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值 值

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
123+阅读 · 2020年11月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
【新书】Python编程基础,669页pdf
专知会员服务
187+阅读 · 2019年10月10日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
Python文本预处理:步骤、使用工具及示例
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Arxiv
0+阅读 · 2021年6月11日
VIP会员
相关VIP内容
相关资讯
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
Python文本预处理:步骤、使用工具及示例
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Top
微信扫码咨询专知VIP会员