现代机器学习(ML)的核心是高维函数的近似。传统的方法,如用分段多项式、小波或其他固定基函数的线性组合进行逼近,都面临着维数(CoD)的问题。我们将提供ML的数学观点,集中在CoD的问题。我们将讨论三个主要问题: 现代ML模型的近似理论和误差分析,梯度下降算法的动力学和定性行为,以及从连续观点的ML。我们将看到,在连续的水平上,ML可以被表示为一系列合理的漂亮的变分和类似于方程的问题。现代的ML模型/算法,如随机特征模型和两层残差神经网络模型,都可以看作是这类连续问题的特殊离散化。我们还将提供一个适合分析高维ML模型和算法的框架,并提供无CoD的结果。最后,我们将讨论现代ML成功的基本原因,以及仍有待理解的微妙和神秘之处。

https://www.datasig.ac.uk/event/weiman-e

成为VIP会员查看完整内容
0
37

相关内容

普林斯顿大学,又译 普林斯敦大学,常被直接称为 普林斯顿,是美国一所私立研究型大学,现为八所常青藤学校之一,绰号为老虎。

有几个主要的主题贯穿全书。这些主题主要是对两个不同类别的比较。当你阅读的时候,很重要的一点是你要明白书的不同部分适合什么类别,不适合什么类别。

统计与因果。即使有无限多的数据,我们有时也无法计算一些因果量。相比之下,很多统计是关于在有限样本中解决不确定性的。当给定无限数据时,没有不确定性。然而,关联,一个统计概念,不是因果关系。在因果推理方面还有更多的工作要做,即使在开始使用无限数据之后也是如此。这是激发因果推理的主要区别。我们在这一章已经做了这样的区分,并将在整本书中继续做这样的区分。

识别与评估。因果效应的识别是因果推论所独有的。这是一个有待解决的问题,即使我们有无限的数据。然而,因果推理也与传统统计和机器学习共享估计。我们将主要从识别因果效应(在第2章中,4和6)之前估计因果效应(第7章)。例外是2.5节和节4.6.2,我们进行完整的例子估计给你的整个过程是什么样子。

介入与观察。如果我们能进行干预/实验,因果效应的识别就相对容易了。这很简单,因为我们可以采取我们想要衡量因果效应的行动,并简单地衡量我们采取行动后的效果。观测数据变得更加复杂,因为数据中几乎总是引入混杂。

假设。将会有一个很大的焦点是我们用什么假设来得到我们得到的结果。每个假设都有自己的框来帮助人们注意到它。清晰的假设应该使我们很容易看到对给定的因果分析或因果模型的批评。他们希望,清晰地提出假设将导致对因果关系的更清晰的讨论。

https://www.bradyneal.com/causal-inference-course

成为VIP会员查看完整内容
0
67

现代机器学习有两个明显的特点:它可以非常强大,也可以非常脆弱。前者不需要赘述。后者指的是现代机器学习算法的性能敏感地依赖于超参数的选择。这个演讲集中在机器学习的连续公式是“适定的”。我们将机器学习和相关的优化过程描述为表现良好的变分问题和类偏微分问题,并证明一些最流行的现代机器学习算法可以作为这些连续问题的离散化恢复。实验结果表明,该方法对不同的超参数选择具有更强的鲁棒性。我们还讨论了如何在这个框架下开发新的算法。

成为VIP会员查看完整内容
0
16

许多ML任务与信号处理有共同的实际目标和理论基础(例如,光谱和核方法、微分方程系统、顺序采样技术和控制理论)。信号处理方法是ML许多子领域中不可分割的一部分,例如,强化学习,哈密顿蒙特卡洛,高斯过程(GP)模型,贝叶斯优化,神经ODEs /SDEs。

本教程旨在涵盖与离散时间和连续时间信号处理方法相联系的机器学习方面。重点介绍了随机微分方程(SDEs)、状态空间模型和高斯过程模型的递推估计(贝叶斯滤波和平滑)。目标是介绍基本原则之间的直接联系信号处理和机器学习, (2) 提供一个直观的实践理解随机微分方程都是关于什么, (3) 展示了这些方法在加速学习的真正好处,提高推理,模型建立,演示和实际应用例子。这将展示ML如何利用现有理论来改进和加速研究,并为从事这些方法交叉工作的ICML社区成员提供统一的概述。

成为VIP会员查看完整内容
0
47

经典的随机优化结果通常假设数据的各种属性的已知值(例如Lipschitz常数、到最优点的距离、平滑性或强凸性常数)。不幸的是,在实践中,这些值是未知的,因此必须经过长时间的反复试验才能找到最佳参数。

为了解决这一问题,近年来许多无参数算法已经被开发用于在线优化和在线学习。无参数算法对数据的性质不作任何假设,但收敛速度与最优优化算法一样快。

这是一项令人兴奋的工作,现在已经足够成熟,可以教授给普通观众了。实际上,这些算法还没有得到机器学习社区的适当介绍,只有少数人完全理解它们。本教程旨在弥补这一差距,介绍使用和设计无参数算法的实践和理论。我们将介绍该领域的最新进展,包括优化、深度学习和使用内核学习的应用。

https://parameterfree.com/icml-tutorial/

成为VIP会员查看完整内容
0
31

专注于识别和解决应用中出现的凸优化问题。凸集、函数和优化问题。凸分析基础。最小二乘、线性和二次规划、半定规划、极大极小、极值体积等问题。最优性条件,对偶理论,备选定理,及应用。内点法。应用于信号处理,统计和机器学习,控制和机械工程,数字和模拟电路设计,和金融。

  • 为学生提供识别应用中出现的凸型优化问题的工具和训练
  • 提出这类问题的基本理论,集中讨论对计算有用的结果
  • 让学生对这类问题的解决方法有全面的了解,并有一定的解题经验
  • 给学生在他们自己的研究工作或应用中使用这些方法所需的背景知识

http://web.stanford.edu/class/ee364a/index.html

成为VIP会员查看完整内容
0
39

非凸优化是机器学习中的基础问题,迭代优化方法缺乏理论支撑。普林斯顿大学助理教授Yuxin Chen一直从事非凸优化方面的研究,这份报告讲述了最近关于非凸统计估计的故事,它们强调了统计模型在实现有效的非凸优化中的重要作用。

Yuxin Chen 目前是普林斯顿大学电气工程系的助理教授。在加入普林斯顿大学之前,他是斯坦福大学统计系的博士后学者,并在斯坦福大学完成了电子工程博士学位。他的研究兴趣包括高维统计、凸与非凸优化、统计学习和信息论。他获得了2019年AFOSR青年研究员奖。

http://www.princeton.edu/~yc5/

非凸优化与统计学

近年来,利用非凸优化方法来解决统计估计和学习问题的研究工作层出不穷。由于非凸优化算法易受虚假局部极小值的影响,传统工作通常对其持悲观看法,而简单的迭代方法,如梯度下降法,在实践中已经取得了显著的成功。然而,直到最近,这些理论基础在很大程度上一直缺乏。这个报告展示了两个最近关于非凸统计估计的故事,它们强调了统计模型在实现有效的非凸优化中的重要作用。第一个故事是关于一个相位检索问题的随机初始化非凸方法:即使没有仔细的初始化,像梯度下降这样的简单算法也可以在对数迭代次数内找到全局解。第二个故事是关于非凸低秩矩阵补全的不确定性量化。我们在非凸估计的基础上开发了一个去偏估计器,使未知矩阵缺失项的置信区间能得到最优构造。所有这些都是通过一个“一留一出”的统计分析框架实现的,该框架在处理和解耦复杂的统计依赖方面非常强大。

https://events.seas.upenn.edu/event/priml-seminar-nonconvex-optimization-meets-statistics-a-few-recent-stories/

成为VIP会员查看完整内容
0
53

【导读】纽约大学的Andrew Gordon Wilson和Pavel Izmailov在论文中从概率角度的泛化性对贝叶斯深度学习进行了探讨。贝叶斯方法的关键区别在于它是基于边缘化,而不是基于最优化的,这为它带来了许多优势。

贝叶斯方法的关键区别是边缘化,而不是使用单一的权重设置。贝叶斯边缘化可以特别提高现代深度神经网络的准确性和校准,这是典型的不由数据完全确定,可以代表许多令人信服的但不同的解决方案。我们证明了深度集成为近似贝叶斯边缘化提供了一种有效的机制,并提出了一种相关的方法,通过在没有显著开销的情况下,在吸引域边缘化来进一步改进预测分布。我们还研究了神经网络权值的模糊分布所隐含的先验函数,从概率的角度解释了这些模型的泛化性质。从这个角度出发,我们解释了那些对于神经网络泛化来说神秘而独特的结果,比如用随机标签来拟合图像的能力,并证明了这些结果可以用高斯过程来重现。最后,我们提供了校正预测分布的贝叶斯观点。

成为VIP会员查看完整内容
0
43

摘要:

本文将优化描述为一个过程。在许多实际应用中,环境是如此复杂,以致于无法制定一个全面的理论模型,并使用经典算法理论和数学优化。采取一种稳健的方法是必要的,也是有益的,方法是应用一种不断学习的优化方法,在观察到问题的更多方面时从经验中学习。这种将优化视为一个过程的观点在各个领域都很突出,并在建模和系统方面取得了一些惊人的成功,现在它们已经成为我们日常生活的一部分。

作者介绍:

Elad Hazan是普林斯顿大学计算机科学教授。他于2015年从Technion毕业,当时他是该校运筹学副教授。他的研究重点是机器学习和优化的基本问题的算法设计和分析。他的贡献包括合作开发用于训练学习机器的AdaGrad算法,以及第一个用于凸优化的次线性时间算法。他曾(两次)获得2012年IBM Goldberg最佳论文奖,以表彰他对机器学习的次线性时间算法的贡献。2008年,他还获得了欧洲研究理事会(European Research Council)的一笔拨款、玛丽•居里(Marie Curie)奖学金和谷歌研究奖(两次)。他是计算学习协会的指导委员会成员,并担任COLT 2015的项目主席。

https://www.cs.princeton.edu/~ehazan/

成为VIP会员查看完整内容
0
97
小贴士
相关VIP内容
专知会员服务
62+阅读 · 9月1日
专知会员服务
47+阅读 · 8月15日
专知会员服务
31+阅读 · 8月1日
专知会员服务
39+阅读 · 7月14日
专知会员服务
64+阅读 · 5月27日
相关论文
Peter C. B. Phillips,Zhentao Shi
0+阅读 · 11月25日
Chiara Amorino,Charlotte Dion,Arnaud Gloter,Sarah Lemler
0+阅读 · 11月24日
Xianrui Meng,Joan Feigenbaum
0+阅读 · 11月24日
Gauthier Guinet,Valerio Perrone,Cédric Archambeau
0+阅读 · 11月24日
Meta-Learning to Cluster
Yibo Jiang,Nakul Verma
10+阅读 · 2019年10月30日
Hardness-Aware Deep Metric Learning
Wenzhao Zheng,Zhaodong Chen,Jiwen Lu,Jie Zhou
5+阅读 · 2019年3月13日
Parsimonious Bayesian deep networks
Mingyuan Zhou
3+阅读 · 2018年10月17日
Ricky T. Q. Chen,Yulia Rubanova,Jesse Bettencourt,David Duvenaud
4+阅读 · 2018年10月3日
Federico Camerlenghi,David B. Dunson,Antonio Lijoi,Igor Prünster,Abel Rodríguez
4+阅读 · 2018年1月15日
Top