主动学习是一种有监督的机器学习协议,其中学习算法从大量未标记数据中序列地请求选定数据点的标签。这与被动学习形成了对比,被动学习是随机获取有标记的数据。主动学习的目标是产生一个高度精确的分类器,理想情况下使用的标签要比被动学习达到同样目的所需的随机标记数据的数量少。这本书描述了我们对主动学习的理论益处的理解的最新进展,以及对设计有效的主动学习算法的启示。文章的大部分内容都集中在一种特殊的方法上,即基于不同意见的主动学习,到目前为止,这种方法已经积累了大量的文献。它还从文献中简要地考察了几种可供选择的方法。重点是关于一些一般算法的性能的定理,包括适当的严格证明。然而,本文的目的是教学,集中于说明基本思想的结果,而不是获得最强或最普遍的已知定理。目标受众包括机器学习和统计学领域的研究人员和高级研究生,他们有兴趣更深入地了解主动学习理论最近和正在进行的发展。

成为VIP会员查看完整内容
1
48

相关内容

这本书调研了大约20世纪90年代末机器学习的许多重要课题。我的意图是在理论和实践之间寻求一个中间桥梁带。笔记集中在机器学习的重要思想上——它既不是一本实践手册,也不是一个理论证明的概要。我的目标是为读者提供充分的准备,使一些关于机器学习的广泛文献易于理解。草稿只有200多页(包括扉页)。

这本书集中在机器学习的重要思想上。对于我所陈述的许多定理,我并没有给出证明,但对于形式的证明,我确实给出了可信的论据和引用。而且,我没有讨论许多在应用中具有实际重要性的问题;这本书不是机器学习实践手册。相反,我的目标是为读者提供充分的准备,使大量关于机器学习的文献易于理解。

学习,就像智力一样,涵盖了如此广泛的过程,很难精确定义。词典的定义包括这样的短语:“通过学习、指导或经验获得知识、或理解、或技能”和“通过经验改变行为倾向”。动物学家和心理学家研究动物和人类的学习。在这本书中,我们关注的是机器学习。动物和机器学习之间有一些相似之处。当然,机器学习的许多技术都来自心理学家的努力,他们通过计算模型使动物和人类学习的理论更加精确。机器学习研究人员正在探索的概念和技术似乎也可能阐明生物学习的某些方面。

成为VIP会员查看完整内容
0
40

统计学是关于可观测现象的数学建模,使用随机模型,以及分析数据:估计模型的参数和检验假设。在这些注释中,我们研究了各种评估和测试程序。我们考虑它们的理论性质,并研究各种最优化的概念。

成为VIP会员查看完整内容
0
38

**从简单的样本到困难的样本,以一种有意义的顺序,使用课程学习可以提供比基于随机数据变换的标准训练方法更好的性能,而不需要额外的计算成本。**课程学习策略已成功地应用于机器学习的各个领域,广泛的任务。然而,必须找到一种方法来对样本从容易到难进行排序,以及正确的节奏函数来引入更难的数据,这可能会限制课程方法的使用。在本综述中,我们展示了这些限制是如何在文献中被处理的,并且我们为机器学习中的各种任务提供了不同的课程学习实例。我们根据不同的分类标准,手工构建了一个多角度的课程学习方法分类。我们进一步使用凝聚聚类算法建立课程学习方法的层次树,将发现的聚类与我们的分类方法联系起来。最后,我们对未来的工作提出了一些有趣的方向。

https://www.zhuanzhi.ai/paper/737037858f92a59732f06559b38cfc15

背景和动机。深度神经网络已经在各种各样的任务成为最先进的方法,从对象识别图像[1],[2],[3],[4]和医学成像[5],[11]0,[11]1,[11]3到文本分类[11]2,[10],[11],[12]和语音识别[13],[14]。这一研究领域的主要焦点是构建越来越深入的神经体系结构,这是最近性能改进的主要驱动力。例如,Krizhevsky等人的CNN模型[1]在只有8层结构的ImageNet[15]上达到了15.4%的top-5误差,而最近的ResNet模型[4]达到了3.6%的top-5误差,有152层。在过去的几年里,CNN的架构已经进化到可以容纳更多的卷积层,减少滤波器的尺寸,甚至消除完全连接的层,相比之下,人们对改进训练过程的关注较少。上面提到的最先进的神经模型的一个重要限制是在训练过程中以随机顺序考虑示例。事实上,训练通常是用小批随机梯度下降的某种变体来进行的,每个小批中的例子是随机选择的。

既然神经网络的架构是受到人类大脑的启发,那么我们似乎可以合理地认为,学习过程也应该受到人类学习方式的启发。与机器通常接受的训练方式的一个本质区别是,人类学习基本(简单)概念的时间较早,学习高级(困难)概念的时间较晚。这基本上反映在世界上所有学校系统所教授的课程中,因为当例子不是随机呈现,而是按照有意义的顺序组织起来时,人类学习得更好。使用类似的策略训练机器学习模型,我们可以实现两个重要的好处: (i) 提高训练过程的收敛速度和(ii) 更好的准确性。Elman[16]对这一方向进行了初步研究。据我们所知,Bengio等人[17]是第一个在机器学习的背景下形成易-难训练策略的人,并提出了课程学习(CL)范式。这一开创性的工作激发了许多研究人员在各种应用领域研究课程学习策略,如弱监督对象定位[18],[19],[20],对象检测[21],[22],[23],[24]和神经机器翻译[25],[26],[27],[18]0等。这些研究的实证结果表明,用课程学习取代基于随机小批量抽样的传统训练有明显的好处。尽管课程学习在多个领域都取得了一致的成功,但这种训练策略并没有被主流作品所采用。这一事实促使我们撰写了这篇关于课程学习方法的综述,以提高课程学习方法的普及程度。另一方面,研究人员提出了相反的策略,强调更难的例子,如硬样例挖掘(HEM)[29],[30],[31],[32]或反课程[33],[34],在特定条件下显示出改善的结果。

贡献。我们的第一个贡献是将现有的课程学习方法正式化。这使我们能够定义课程学习的一般形式。从理论上讲,我们将课程学习与任何机器学习方法的四个主要组成部分联系起来:数据、模型、任务和性能度量。我们观察到,课程学习可以应用于这些组成部分中的每一个,所有这些课程形式都有一个与损失函数平滑相关的联合解释。在此基础上,结合数据类型、任务、课程策略、排名标准和课程安排的正交分析视角,对课程学习方法进行了分类。我们用自动构建的课程方法层次树来验证人工构建的分类方法。在很大程度上,层次树确认了我们的分类,尽管它也提供了一些新的视角。在收集关于课程学习和定义课程学习方法分类的工作的同时,我们的综述也旨在展示课程学习的优势。因此,我们最后的贡献是在主流工作中提倡课程学习。

成为VIP会员查看完整内容
1
25

目录

第一章 为什么机器学习至关重要。 本章描绘了人工智能和机器学习的发展全貌——从过去到现在,再到未来。

第二章 监督学习(一)。 本章通过例题介绍了线性回归、损失函数、过拟合和梯度下降。

第三章 监督学习(二)。 本章介绍了两种分类方法:逻辑回归和SVM。

第四章 监督学习(三)。 本章介绍了非参数方法:k近邻估计、决策树、随机森林。以及交叉验证、超参数调整和集成模型的相关知识。

第五章 无监督学习。 本章介绍了聚类:K-means、层次聚类;降维:主成分分析(PCA)、奇异值分解(SVD)。

第六章 神经网络与深度学习。 本章介绍了深度学习的工作原理、应用领域和实现方法,并回顾了神经网络是如何从人类大脑中汲取灵感的。此外,本章还涉及卷积神经网络(CNN)、递归神经网络(DNN)以及神经网络应用案例等内容。

第七章 强化学习。 本章介绍了强化学习的Exploration和Exploitation(探索-利用),包括马尔可夫决策过程、Q-learning、策略学习和深度强化学习。

附录: 最佳机器学习资源。 一份用于学习机器学习的资源清单。

前言

Machine Learning for Humans是国外机器学习爱好者之间流传甚广的一本电子书,它最先是Medium上的连载文章,后因文章质量出众、阅读价值高,作者在建议下把文章整理成电子书,供读者免费阅读。本书的作者Vishal Maini是耶鲁大学的文学学士,目前已入职DeepMind;另一名作者Samer Sabri同样毕业于耶鲁大学,目前正在加州大学圣迭戈分校的计算机学院攻读硕士学位。

哪些人应该读一读?

希望快速跟上机器学习发展潮流的开发者;

希望掌握机器学习入门知识并参与技术开发的普通读者;

所有对机器学习感兴趣的读者。

本书向所有人免费开放阅读。书中虽然会涉及概率论、统计学、程序设计、线性代数和微积分等基础知识,但没有数学基础的读者也能从中获得启发。

本书旨在帮助读者在2—3个小时内迅速掌握机器学习高级概念,如果您想得到更多关于线上课程、重要书籍、相关项目等方面的内容,请参考附录中的建议。

成为VIP会员查看完整内容
0
43

基于最近关于非凸优化算法在训练深度神经网络和数据分析中的其他优化问题中的应用,我们对非凸优化算法全局性能保证的最新理论成果进行了综述。我们从经典的论证开始,证明一般的非凸问题不可能在合理的时间内得到有效的解决。然后,我们给出了一个可以通过尽可能多地利用问题的结构来寻找全局最优解的问题列表。处理非凸性的另一种方法是将寻找全局最小值的目标放宽到寻找一个平稳点或局部最小值。对于这种设置,我们首先给出确定性一阶方法收敛速度的已知结果,然后是最优随机和随机梯度格式的一般理论分析,以及随机一阶方法的概述。然后,我们讨论了相当一般的一类非凸问题,如α-弱拟凸函数的极小化和满足Polyak- Lojasiewicz条件的函数,这些函数仍然可以得到一阶方法的理论收敛保证。然后我们考虑非凸优化问题的高阶、零阶/无导数方法及其收敛速度。

成为VIP会员查看完整内容
0
42

现代博弈论的权威性和定量方法,应用于经济、政治科学、军事科学和金融等不同领域。

探索当前博弈论文本中未涉及的领域,包括对零和博弈的深入研究;提供博弈论的入门材料,包括讨价还价,室内游戏,体育,网络游戏和动态游戏;探讨议价模式,探讨议价模式下的资源分配、买卖指示、信誉等新结果;在每一章的结尾,都会给出理论结果以及大量的例子和详细的解决方案;平衡了博弈论的理论基础和复杂应用。

成为VIP会员查看完整内容
0
85

统计学习理论是一个新兴的研究领域,它是概率论、统计学、计算机科学和最优化的交叉领域,研究基于训练数据进行预测的计算机算法的性能。以下主题将包括:统计决策理论基础;集中不平等;监督学习和非监督学习;经验风险最小化;complexity-regularized估计;学习算法的泛化界VC维与复杂性;极大极小下界;在线学习和优化。利用一般理论,我们将讨论统计学习理论在信号处理、信息论和自适应控制方面的一些应用。

成为VIP会员查看完整内容
0
88

题目: Optimization for deep learning: theory and algorithms

摘要:

什么时候以及为什么能够成功地训练神经网络?本文概述了神经网络的优化算法和训练理论。首先,我们讨论了梯度爆炸、消失问题,然后讨论了实际的解决方案,包括初始化和归一化方法。其次,我们回顾了用于训练神经网络的一般优化方法,如SGD、自适应梯度方法和分布式方法以及这些算法的理论结果。第三,我们回顾了现有的关于神经网络训练的全局问题的研究,包括局部极值的结果、模式连接、无限宽度分析。

作者:

Ruoyu Sun是伊利诺伊大学厄本那香槟分校 (UIUC)电子与计算机工程系的助理教授,研究优化和机器学习,尤其是深度学习。最近,一直在研究深度学习中的最优化,例如神经网络,GANs和Adam。

摘要

什么时候以及为什么能够成功地训练神经网络?本文概述了神经网络的优化算法和训练理论。首先,我们讨论了梯度爆炸/消失问题和更一般的不期望谱问题,然后讨论了实际的解决方案,包括仔细的初始化和归一化方法。其次,我们回顾了用于训练神经网络的一般优化方法,如SGD、自适应梯度方法和分布式方法,以及这些算法的现有理论结果。第三,我们回顾了现有的关于神经网络训练的全局问题的研究,包括局部极值的结果、模式连接、彩票假设和无限宽度分析。

  1. 概述

本文的一个主要主题是了解成功训练神经网络的实际组成部分,以及可能导致训练失败的因素。假设你在1980年试图用神经网络解决一个图像分类问题。如果你想从头开始训练一个神经网络,很可能你最初的几次尝试都没有得到合理的结果。什么本质的变化使算法能有效进行?在高层次上,你需要三样东西(除了强大的硬件): 合适的神经网络、合适的训练算法和合适的训练技巧。

合适的神经网络。这包括神经结构和激活功能。对于神经结构,您可能想要用一个至少有5层和足够神经元的卷积网络来替换一个完全连接的网络。为了获得更好的性能,您可能希望将深度增加到20甚至100,并添加跳跃skip连接。对于激活函数,一个好的起点是ReLU激活,但是使用tanh或swish激活也是合理的。

训练算法。一个大的选择是使用随机版本的梯度下降(SGD)并坚持它。良好调整的步长足够好,而动量和自适应步长可以提供额外的好处。

训练技巧。适当的初始化对于算法的训练是非常重要的。要训练一个超过10层的网络,通常需要两个额外的技巧:添加规范化层和添加跳过连接。

哪些设计选择是必要的?目前我们已经了解了一些设计选择,包括初始化策略、规范化方法、跳过连接、参数化(大宽度)和SGD,如图1所示。我们将优化优势大致分为三部分: 控制Lipschitz常数、更快的收敛速度和更好的landscape。还有许多其他的设计选择是很难理解的,尤其是神经架构。无论如何,似乎不可能理解这个复杂系统的每个部分,目前的理解已经可以提供一些有用的见解。

图1: 成功训练具有理论理解的神经网络的几个主要设计选择。它们对算法收敛的三个方面有影响:使收敛成为可能、更快的收敛和更好的全局解。这三个方面有一定的联系,只是一个粗略的分类。请注意,还有其他一些重要的设计选择,特别是神经体系结构,它们在理论上还没有被理解,因此在该图中被省略了。还有其他好处,比如泛化,也被忽略了。

为了使综述调查简单,我们将重点研究前馈神经网络的监督学习问题。我们将不讨论更复杂的公式,如GANs(生成对抗网络)和深度强化学习,也不讨论更复杂的体系结构,如RNN(递归神经网络)、attention和Capsule。在更广泛的背景下,监督学习理论至少包含表示、优化和泛化(参见1.1节),我们不详细讨论表示和泛化。一个主要的目标是理解神经网络结构(由许多变量连接的参数化)如何影响优化算法的设计和分析,这可能会超越监督学习。

这篇文章是为那些对神经网络优化的理论理解感兴趣的研究人员写的。关于优化方法和基础理论的先验知识将非常有帮助(参见,[24,200,29]的准备)。现有的关于深度学习优化的调查主要针对一般的机器学习受众,如Goodfellow等[76]的第8章。这些综述通常不深入讨论优化的理论方面。相反,在这篇文章中,我们更多地强调理论结果,同时努力使它对非理论读者具有可访问性。如果可能的话,我们将提供一些简单的例子来说明这种直觉,我们将不解释定理的细节。

1.1 大景观:分解理论

分解是发展理论的一个有用且流行的元方法。首先简要回顾了优化在机器学习中的作用,然后讨论了如何分解深度学习的优化理论。

表示、优化和泛化。监督学习的目标是根据观察到的样本找到一个近似底层函数的函数。第一步是找到一个丰富的函数家族(如神经网络),可以代表理想的函数。第二步是通过最小化某个损失函数来识别函数的参数。第三步是使用第二步中找到的函数对不可见的测试数据进行预测,产生的错误称为测试错误。测试误差可以分解为表示误差、优化误差和泛化误差,分别对应这三个步骤引起的误差。

在机器学习中,表示、优化和泛化这三个学科经常被分开研究。例如,在研究一类函数的表示能力时,我们往往不关心优化问题能否很好地解决。在研究泛化误差时,我们通常假设已经找到了全局最优值(概化调查见[95])。类似地,在研究优化属性时,我们通常不明确地考虑泛化误差(但有时我们假定表示误差为零)。

优化问题的分解。深度学习的优化问题比较复杂,需要进一步分解。优化的发展可以分为三个步骤。第一步是使算法开始运行,并收敛到一个合理的解,如一个固定点。第二步是使算法尽快收敛。第三步是确保算法收敛到一个低目标值的解(如全局极小值)。要获得良好的测试精度,还有一个额外的步骤,但是这超出了优化的范围。简而言之,我们将优化问题分为三个部分: 收敛性、收敛速度和全局质量。

大部分工作的回顾分为三个部分: 第四部分,第五部分和第六部分。大致说来,每个部分主要是由优化理论的三个部分之一。然而,这种划分并不精确,因为这三个部分之间的边界是模糊的。例如,第4节中讨论的一些技术也可以提高收敛速度,第6节中的一些结果解决了收敛问题和全局问题。划分的另一个原因是它们代表了神经网络优化的三个相当独立的子领域,并且在一定程度上是独立发展的。

1.2 文章结构

这篇文章的结构如下。在第二节中,我们提出了一个典型的监督学习神经网络优化问题。在第三节中,我们提出了反向传播(BP),并分析了将经典收敛分析应用于神经网络梯度下降的困难。在第四节中,我们将讨论训练神经网络的神经网络特定技巧,以及一些基本理论。这些是神经网络相关的方法,打开了神经网络的黑盒子。特别地,我们讨论了一个主要的挑战,称为梯度爆炸/消失和一个更普遍的挑战,控制频谱,并回顾了主要的解决方案,如仔细的初始化和归一化方法。在第五节中,我们讨论了将神经网络视为一般非凸优化问题的泛型算法设计。特别地,我们回顾了SGD的各种学习速率调度、自适应梯度方法、大规模分布式训练、二阶方法以及现有的收敛和迭代复杂度结果。在第六节中,我们回顾了神经网络的全局优化研究,包括全局景观、模式连接、彩票假设和无限宽度分析(如神经正切核)。

更多请下载论文查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

后台回复“

成为VIP会员查看完整内容
0
87

题目: Active Learning: From Theory to Practice

简介:

近年来,机器学习领域取得了相当大的进步,但主要是在定义明确的领域中使用了大量带有人类标记的训练数据。机器可以识别图像中的物体并翻译文本,但它们必须接受比人一生所能看到的更多的图像和文本的训练。生成必要的训练数据集需要大量的人力工作。Active ML旨在解决这个问题,它设计了一种学习算法,能够自动、自适应地选择最具信息性的数据进行标记,这样就不会浪费人类的时间来标记不相关、冗余或琐碎的例子。本教程将概述应用程序,并介绍主动机器学习的基本理论和算法。它将特别关注可证明的健全的主动学习算法,并量化学习所需的标记训练数据的减少。

邀请嘉宾:

Robert Nowak是威斯康星大学麦迪逊分校的诺斯布施工程教授,他的研究重点是信号处理、机器学习、优化和统计。

Steve Hanneke是芝加哥丰田技术研究所的研究助理教授。他的研究探索了机器学习理论:设计新的学习算法,能够从更少的样本中学习,理解交互式机器学习的好处和能力,开发迁移学习和终身学习的新视角,并在学习理论的基础上重新审视基本的概率假设。Steve于2005年在UIUC获得了计算机科学学士学位,2009年在卡内基梅隆大学获得了机器学习博士学位,并完成了一篇关于主动学习理论基础的论文。

成为VIP会员查看完整内容
0
23
小贴士
相关主题
相关论文
Zaynah Javed,Daniel S. Brown,Satvik Sharma,Jerry Zhu,Ashwin Balakrishna,Marek Petrik,Anca D. Dragan,Ken Goldberg
5+阅读 · 6月11日
Recent advances in deep learning theory
Fengxiang He,Dacheng Tao
37+阅读 · 2020年12月20日
Ramchandra Joshi,Purvi Goel,Raviraj Joshi
4+阅读 · 2020年1月19日
Optimization for deep learning: theory and algorithms
Ruoyu Sun
79+阅读 · 2019年12月19日
A Survey of the Usages of Deep Learning in Natural Language Processing
Daniel W. Otter,Julian R. Medina,Jugal K. Kalita
70+阅读 · 2019年9月11日
Few-shot Learning: A Survey
Yaqing Wang,Quanming Yao
316+阅读 · 2019年4月10日
Ioannis Athanasiadis,Panagiotis Mousouliotis,Loukas Petrou
3+阅读 · 2018年11月12日
Alexander Jung
9+阅读 · 2018年8月19日
Deep Learning
Nicholas G. Polson,Vadim O. Sokolov
3+阅读 · 2018年8月3日
Alireza Ghasemi,Hamid R. Rabiee,Mohsen Fadaee,Mohammad T. Manzuri,Mohammad H. Rohban
3+阅读 · 2016年2月24日
Top