​【导读】NeurIPS 2019刚落下帷幕,大会发布了7篇最佳论文,一系列论文和tutorial,涉及很多热点比如图机器学习、元学习、核方法、软硬一体化等。不得不看!NeurIPS 2019三个关键研究热点趋势:贝叶斯、GNN、凸优化。来自东京RIKEN研究中心的Emtiyaz Khan给了关于以贝叶斯原理进行深度学习的教程《Deep Learning with Bayesian Principles》,共有86页ppt,以及撰写了最新的论文,讲述贝叶斯和深度学习如何结合到一起进行学习新算法,提出了一种基于贝叶斯原理的学习规则,它使我们能够连接各种各样的学习算法。利用这一规则,可以在概率图形模型、连续优化、深度学习、强化学习、在线学习和黑盒优化等领域得到广泛的学习算法。非常具有启发性,值得查看!

深度学习和贝叶斯学习被认为是两个完全不同的领域,通常用于互补的设置情景。显然,将这两个领域的思想结合起来是有益的,但鉴于它们的根本区别,我们如何才能做到这一点呢?

本教程将介绍现代贝叶斯原理来填补这一空白。利用这些原理,我们可以推出一系列学习算法作为特例,例如,从经典算法,如线性回归和前向后向算法,到现代深度学习算法,如SGD、RMSprop和Adam。然后,这个视图提供了新的方法来改进深度学习的各个方面,例如,不确定性、健壮性和解释。它也使设计新的方法来解决挑战性的问题,如那些出现在主动学习,持续学习,强化学习等。

总的来说,我们的目标是让贝叶斯和深度学习比以往任何时候都更接近,并激励它们一起工作,通过结合他们的优势来解决具有挑战性的现实问题。

成为VIP会员查看完整内容
0
89

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

摘要

一个综合的人工智能系统不仅需要用不同的感官(如视觉和听觉)感知环境,还需要推断世界的条件(甚至因果)关系和相应的不确定性。在过去的十年里,我们看到了许多感知任务的重大进展,比如视觉对象识别和使用深度学习模型的语音识别。然而,对于更高层次的推理,具有贝叶斯特性的概率图模型仍然更加强大和灵活。近年来,贝叶斯深度学习作为一种将深度学习与贝叶斯模型紧密结合的统一的概率框架出现了。在这个总体框架中,利用深度学习对文本或图像的感知可以提高更高层次推理的性能,推理过程的反馈也可以增强文本或图像的感知。本文对贝叶斯深度学习进行了全面的介绍,并对其在推荐系统主题模型控制等方面的最新应用进行了综述。此外,我们还讨论了贝叶斯深度学习与其他相关课题如神经网络的贝叶斯处理之间的关系和区别。

介绍

在过去的十年中,深度学习在许多流行的感知任务中取得了显著的成功,包括视觉对象识别、文本理解和语音识别。这些任务对应于人工智能(AI)系统的看、读、听能力,它们无疑是人工智能有效感知环境所必不可少的。然而,要建立一个实用的、全面的人工智能系统,仅仅有感知能力是远远不够的。首先,它应该具备思维能力。

一个典型的例子是医学诊断,它远远超出了简单的感知:除了看到可见的症状(或CT上的医学图像)和听到患者的描述,医生还必须寻找所有症状之间的关系,最好推断出它们的病因。只有在那之后,医生才能给病人提供医疗建议。在这个例子中,虽然视觉和听觉的能力让医生能够从病人那里获得信息,但医生的思维能力才是关键。具体来说,这里的思维能力包括识别条件依赖、因果推理、逻辑演绎、处理不确定性等,显然超出了传统深度学习方法的能力。幸运的是,另一种机器学习范式,概率图形模型(PGM),在概率或因果推理和处理不确定性方面表现出色。问题在于,PGM在感知任务上不如深度学习模型好,而感知任务通常涉及大规模和高维信号(如图像和视频)。为了解决这个问题,将深度学习和PGM统一到一个有原则的概率框架中是一个自然的选择,在本文中我们称之为贝叶斯深度学习(BDL)。 在上面的例子中,感知任务包括感知病人的症状(例如,通过看到医学图像),而推理任务包括处理条件依赖性、因果推理、逻辑推理和不确定性。通过贝叶斯深度学习中有原则的整合,将感知任务和推理任务视为一个整体,可以相互借鉴。具体来说,能够看到医学图像有助于医生的诊断和推断。另一方面,诊断和推断反过来有助于理解医学图像。假设医生可能不确定医学图像中的黑点是什么,但如果她能够推断出症状和疾病的病因,就可以帮助她更好地判断黑点是不是肿瘤。 再以推荐系统为例。一个高精度的推荐系统需要(1)深入了解条目内容(如文档和电影中的内容),(2)仔细分析用户档案/偏好,(3)正确评价用户之间的相似度。深度学习的能力有效地处理密集的高维数据,如电影内容擅长第一子任务,而PGM专攻建模条件用户之间的依赖关系,项目和评分(参见图7为例,u, v,和R是用户潜在的向量,项目潜在的向量,和评级,分别)擅长其他两个。因此,将两者统一在一个统一的概率原则框架中,可以使我们在两个世界中都得到最好的结果。这种集成还带来了额外的好处,可以优雅地处理推荐过程中的不确定性。更重要的是,我们还可以推导出具体模型的贝叶斯处理方法,从而得到更具有鲁棒性的预测。

作为第三个例子,考虑根据从摄像机接收到的实时视频流来控制一个复杂的动态系统。该问题可以转化为迭代执行两项任务:对原始图像的感知和基于动态模型的控制。处理原始图像的感知任务可以通过深度学习来处理,而控制任务通常需要更复杂的模型,如隐马尔科夫模型和卡尔曼滤波器。由控制模型选择的动作可以依次影响接收的视频流,从而完成反馈回路。为了在感知任务和控制任务之间实现有效的迭代过程,我们需要信息在它们之间来回流动。感知组件将是控制组件估计其状态的基础,而带有动态模型的控制组件将能够预测未来的轨迹(图像)。因此,贝叶斯深度学习是解决这一问题的合适选择。值得注意的是,与推荐系统的例子类似,来自原始图像的噪声和控制过程中的不确定性都可以在这样的概率框架下自然地处理。 以上例子说明了BDL作为一种统一深度学习和PGM的原则方式的主要优势:感知任务与推理任务之间的信息交换、对高维数据的条件依赖以及对不确定性的有效建模。关于不确定性,值得注意的是,当BDL应用于复杂任务时,需要考虑三种参数不确定性:

  1. 神经网络参数的不确定性
  2. 指定任务参数的不确定性
  3. 感知组件和指定任务组件之间信息交换的不确定性

通过使用分布代替点估计来表示未知参数,BDL提供了一个很有前途的框架,以统一的方式处理这三种不确定性。值得注意的是,第三种不确定性只能在BDL这样的统一框架下处理;分别训练感知部分和任务特定部分相当于假设它们之间交换信息时没有不确定性。注意,神经网络通常是过参数化的,因此在有效处理如此大的参数空间中的不确定性时提出了额外的挑战。另一方面,图形模型往往更简洁,参数空间更小,提供了更好的可解释性。

除了上述优点之外,BDL内建的隐式正则化还带来了另一个好处。通过在隐藏单元、定义神经网络的参数或指定条件依赖性的模型参数上施加先验,BDL可以在一定程度上避免过拟合,尤其是在数据不足的情况下。通常,BDL模型由两个组件组成,一个是感知组件,它是某种类型神经网络的贝叶斯公式,另一个是任务特定组件,使用PGM描述不同隐藏或观察变量之间的关系。正则化对它们都很重要。神经网络通常过度参数化,因此需要适当地正则化。正则化技术如权值衰减和丢失被证明是有效地改善神经网络的性能,他们都有贝叶斯解释。在任务特定组件方面,专家知识或先验信息作为一种正规化,可以在数据缺乏时通过施加先验来指导模型。 在将BDL应用于实际任务时,也存在一些挑战。(1)首先,设计一个具有合理时间复杂度的高效的神经网络贝叶斯公式并非易事。这一行是由[42,72,80]开创的,但是由于缺乏可伸缩性,它没有被广泛采用。幸运的是,这个方向的一些最新进展似乎为贝叶斯神经网络的实际应用提供了一些启示。(2)第二个挑战是如何确保感知组件和任务特定组件之间有效的信息交换。理想情况下,一阶和二阶信息(例如,平均值和方差)应该能够在两个组件之间来回流动。一种自然的方法是将感知组件表示为PGM,并将其与特定任务的PGM无缝连接,如[24,118,121]中所做的那样。 本综述提供了对BDL的全面概述,以及各种应用程序的具体模型。综述的其余部分组织如下:在第2节中,我们将回顾一些基本的深度学习模型。第3节介绍PGM的主要概念和技术。这两部分作为BDL的基础,下一节第4节将演示统一BDL框架的基本原理,并详细说明实现其感知组件和特定于任务的组件的各种选择。第5节回顾了应用于不同领域的BDL模型,如推荐系统、主题模型和控制,分别展示了BDL在监督学习、非监督学习和一般表示学习中的工作方式。第6部分讨论了未来的研究问题,并对全文进行了总结。

结论和未来工作

BDL致力于将PGM和NN的优点有机地整合在一个原则概率框架中。在这项综述中,我们确定了这种趋势,并回顾了最近的工作。BDL模型由感知组件和任务特定组件组成;因此,我们分别描述了过去几年开发的两个组件的不同实例,并详细讨论了不同的变体。为了学习BDL中的参数,人们提出了从块坐标下降、贝叶斯条件密度滤波、随机梯度恒温器到随机梯度变分贝叶斯等多种类型的算法。 BDL从PGM的成功和最近在深度学习方面有前景的进展中获得了灵感和人气。由于许多现实世界的任务既涉及高维信号(如图像和视频)的有效感知,又涉及随机变量的概率推理,因此BDL成为利用神经网络的感知能力和PGM的(条件和因果)推理能力的自然选择。在过去的几年中,BDL在推荐系统、主题模型、随机最优控制、计算机视觉、自然语言处理、医疗保健等各个领域都有成功的应用。在未来,我们不仅可以对现有的应用进行更深入的研究,还可以对更复杂的任务进行探索。此外,最近在高效BNN (BDL的感知组件)方面的进展也为进一步提高BDL的可扩展性奠定了基础。

成为VIP会员查看完整内容
0
75

【导读】终身学习是机器学习中的热门研究话题之一。如何实现持续学习?来自东京RIKEN研究中心的Emtiyaz Khan给了关于从深度神经网络到高斯过程的教程《DNN2GP: From Deep Networks to Gaussian Processes》,共有45页ppt,以及撰写了最新的论文,通过提出一种新的函数正则化方法来解决这个问题,该方法利用了一些过去的难忘样例,这些样例对于避免遗忘至关重要。通过使用深度网络的高斯过程公式,能够在权重空间中进行训练,同时识别难忘的过去样例和功能性样例。非常具有启发性,值得查看!

** 持续深度学习**

不断学习新技能对智能系统来说很重要,但大多数深度学习方法都存在严重的遗忘问题。最近的研究用权重调整来解决这个问题。函数正则化虽然在计算上很昂贵,但人们期望它能表现得更好,但在实践中却很少这样做。在本文中,我们通过提出一种新的函数正则化方法来解决这个问题,该方法利用了一些过去的难忘的例子,这些例子对于避免遗忘至关重要。通过使用深度网络的高斯过程公式,我们的方法能够在权重空间中进行训练,同时识别难忘的过去样例和功能性样例。我们的方法在标准基准上实现了最先进的性能,并为终身学习开辟了一个新的方向,使正则化和基于记忆的方法自然地结合在一起。

DNN2GP: 从深度神经网络到高斯过程

成为VIP会员查看完整内容
0
33

简介:

深度学习被认为是一种无模型,端到端和黑盒子的方法。它需要大量数据样本,而不是目标领域的专家知识。因此,它没有指定决策的机制和原因。这方面被认为是深度学习的关键限制。本文介绍了另一种观点,即贝叶斯深度学习。深度学习可以应用在任何框架中,例如贝叶斯网络和强化学习。随后,专家可以将知识实现为图结构,加快学习速度,并获得目标域上的新知识。该框架被称为深度生成模型。相反,我们可以将贝叶斯建模方法直接引入深度学习。随后,有可能通过不确定性量化输出来探究关于其决策确定性的深度学习,并检测错误的决策或异常输入。使用上述方法,可以调整深度学习的“brightness”。

成为VIP会员查看完整内容
0
27

【导读】今年 8 月份,毕业于斯坦福、现就职于英伟达人工智能应用团队的 Chip Huyen 撰写了一篇博客,讲述她对NeurlPS2019的观感,讲述了研究热点与发展趋势,感兴趣的三个方向是: 贝叶斯学习、图神经网络和凸优化,来看下。

地址: https://huyenchip.com/2019/12/18/key-trends-neurips-2019.html

  1. 深度学习与贝叶斯原理

正如Emtiyaz Khan在他的《深度学习与贝叶斯原则》演讲中所强调的那样,贝叶斯学习和深度学习是非常不同的。根据Khan的说法,深度学习使用“试错”的方法——让我们看看实验会把我们带向何方——而贝叶斯原则迫使你事先思考一个假设(先验)。

与常规的深度学习相比,贝叶斯深度学习主要有两个优点:不确定性估计和对小数据集的更好的泛化。在实际应用中,仅仅系统做出预测是不够的。知道每个预测的确定性是很重要的。例如,预测癌症有50.1%的确定性需要不同的治疗,同样的预测有99.9%的确定性。在贝叶斯学习中,不确定性估计是一个内置特性。

传统的神经网络给出单点估计——它们使用一组权值在数据点上输出预测。另一方面,Bayesian神经网络使用网络权值上的概率分布,并输出该分布中所有权值集的平均预测,其效果与许多神经网络上的平均预测相同。因此,贝叶斯神经网络是自然的集合体,它的作用类似于正则化,可以防止过度拟合。

拥有数百万参数的贝叶斯神经网络的训练在计算上仍然很昂贵。收敛到一个后验值可能需要数周时间,因此诸如变分推论之类的近似方法已经变得流行起来。概率方法-变分贝叶斯推理会议上发表了10篇关于这种变分贝叶斯方法的论文。

我喜欢读一些关于贝叶斯深度学习的NeurIPS论文:

  1. 图神经网络(GNNs)

多年来,我一直在谈论图论是机器学习中最被低估的话题之一。我很高兴看到图机器学习在今年的NeurIPS上非常流行。

对于许多类型的数据,例如社交网络、知识库和游戏状态,图形是美丽而自然的表示。用于推荐系统的用户项数据可以表示为一个二部图,其中一个不相交集由用户组成,另一个由物品组成。

图也可以表示神经网络的输出。正如 Yoshua Bengio在他的特邀演讲中提醒我们的那样,任何联合分布都可以表示为一个因子图。

这使得graph neural network对于组合优化(例如旅行推销员、日程安排)、身份匹配(这个Twitter用户和这个Facebook用户一样吗?)、推荐系统等任务来说是完美的。

最流行的图神经网络是图卷积神经网络(GCNN),这是预期的,因为它们都对本地信息进行编码。卷积倾向于寻找输入相邻部分之间的关系。图通过边编码与输入最相关的部分。

推荐阅读:

  1. 凸优化

我很欣赏Stephen Boyd关于凸优化的工作,所以很高兴看到它在NeurIPS上越来越受欢迎——有32篇论文与这个主题相关(1,2)。Stephen Boyd和J. Zico Kolter的实验室也发表了他们的论文《可微凸优化层》,展示了如何通过凸优化问题的解决方案进行区分,使其有可能嵌入可微程序(如神经网络)并从数据中学习它们。

凸优化问题是有吸引力的,因为它们可以准确地解决(1e-10的误差容忍度是可以实现的)和快速。它们也不会产生奇怪的/意料之外的输出,而这对于真实的应用程序是至关重要的。尽管在开放环境遇到的许多问题都是非凸的,但将它们分解成一系列凸问题是可行的。

利用凸优化算法训练神经网络。然而,虽然神经网络的重点是从头开始学习,但在端到端的方式中,凸优化问题的应用明确地强调建模系统,使用领域特定的知识。当可以以凸的方式显式地对系统建模时,通常需要的数据要少得多。可微凸优化层的工作是混合端到端学习和显式建模的优点的一种方法。

当你想控制一个系统的输出时,凸优化特别有用。例如,SpaceX使用凸优化来让火箭着陆,贝莱德(BlackRock)将其用于交易算法。在深度学习中使用凸优化真的很酷,就像现在的贝叶斯学习。

Akshay Agrawal推荐的关于凸优化的NeurIPS论文。

NeurlPS 2019 研究内容分析

  • 强化学习甚至在机器人学之外也越来越流行。有显著正性变化的关键词有bandit、feedback、regret、control。
  • 生成模型仍然很流行。GAN仍然吸引着我们的想象力,但远没有那么夸张。
  • 递归神经网络和卷积神经网络在去年确实如此。
  • 硬件关键字也在上升,信号更多的硬件感知算法。这是对硬件是机器学习瓶颈这一担忧的回答。
  • 我很难过数据在下降。
  • Meta learning预计,今年这一比例的增幅最高。
  • 尽管贝叶斯定理下降了,不确定性却上升了。去年,有很多论文使用了贝叶斯原理,但没有针对深度学习。

参考链接: https://huyenchip.com/2019/12/18/key-trends-neurips-2019.html

成为VIP会员查看完整内容
0
42

报告题目: Bayesian Deep Learning

报告摘要: 深度神经网络是连接主义系统,通过它通过学习例子来完成任务,而不需要事先了解这些任务。它们可以很容易地扩展到数百万个数据点,并且可以通过随机梯度下降进行优化。贝叶斯方法可以用于学习神经网络权重的概率分布。贝叶斯深度学习与贝叶斯深度学习(如何对DNNs进行贝叶斯推理?如何学习分层结构的贝叶斯模型?),本篇报告给出一定解释。

嘉宾介绍: 朱军博士是清华大学计算机系长聘副教授、智能技术与系统国家重点实验室副主任、卡内基梅隆大学兼职教授。2013年,入选IEEE Intelligent Systems的“人工智能10大新星”(AI’s 10 to Watch)。他主要从事机器学习研究,在国际重要期刊与会议发表学术论文80余篇。担任国际期刊IEEE TPAMI和Artificial Intelligence的编委、国际会议ICML 2014地区联合主席、以及ICML、NIPS等国际会议的领域主席。

成为VIP会员查看完整内容
Bayesian Deep Learning.pdf
0
54

课程名称: Deep Learning and Bayesian Methods

课程介绍: 在Deep|Bayes暑期学校,我们将讨论如何将Bayes方法与Deep Learning相结合,并在机器学习应用程序中带来更好的结果。 最近的研究证明,贝叶斯方法的使用可以通过各种方式带来好处。 学校参与者将学习对理解当前机器学习研究至关重要的方法和技术。 他们还将具有使用概率模型来构建神经生成和判别模型的动手经验,学习神经网络的现代随机优化方法和正则化技术,并掌握推理神经网络及其权重不确定性的方法,预测。

部分邀请嘉宾: Maurizio Filippone,AXA计算统计主席,EURECOM副教授

Novi Quadrianto,萨塞克斯大学助理教授

课程大纲:

  • 贝叶斯方法介绍
  • 贝叶斯推理
  • EM算法
  • 随机变分推理与变分自编码器
  • GAN
  • 高斯分布与贝叶斯优化
  • 贝叶斯神经网络
成为VIP会员查看完整内容
schedule-2019.pdf
0
36
小贴士
相关论文
A Survey on Bayesian Deep Learning
Hao Wang,Dit-Yan Yeung
25+阅读 · 7月2日
Financial Time Series Representation Learning
Philippe Chatigny,Jean-Marc Patenaude,Shengrui Wang
6+阅读 · 3月27日
Emmanuel Bengio,Joelle Pineau,Doina Precup
6+阅读 · 3月13日
Optimization for deep learning: theory and algorithms
Ruoyu Sun
62+阅读 · 2019年12月19日
Deep Learning for Energy Markets
Michael Polson,Vadim Sokolov
3+阅读 · 2019年4月10日
Tuomas Haarnoja,Aurick Zhou,Sehoon Ha,Jie Tan,George Tucker,Sergey Levine
3+阅读 · 2018年12月26日
Borja Ibarz,Jan Leike,Tobias Pohlen,Geoffrey Irving,Shane Legg,Dario Amodei
3+阅读 · 2018年11月15日
KiJung Yoon,Renjie Liao,Yuwen Xiong,Lisa Zhang,Ethan Fetaya,Raquel Urtasun,Richard Zemel,Xaq Pitkow
3+阅读 · 2018年5月25日
Mohammadhosein Hasanbeig,Alessandro Abate,Daniel Kroening
5+阅读 · 2018年4月22日
Ruobing Xie,Zhiyuan Liu,Fen Lin,Leyu Lin
10+阅读 · 2018年2月16日
Top