【导读】纽约大学的Andrew Gordon Wilson和Pavel Izmailov在论文中从概率角度的泛化性对贝叶斯深度学习进行了探讨。贝叶斯方法的关键区别在于它是基于边缘化,而不是基于最优化的,这为它带来了许多优势。

贝叶斯方法的关键区别是边缘化,而不是使用单一的权重设置。贝叶斯边缘化可以特别提高现代深度神经网络的准确性和校准,这是典型的不由数据完全确定,可以代表许多令人信服的但不同的解决方案。我们证明了深度集成为近似贝叶斯边缘化提供了一种有效的机制,并提出了一种相关的方法,通过在没有显著开销的情况下,在吸引域边缘化来进一步改进预测分布。我们还研究了神经网络权值的模糊分布所隐含的先验函数,从概率的角度解释了这些模型的泛化性质。从这个角度出发,我们解释了那些对于神经网络泛化来说神秘而独特的结果,比如用随机标签来拟合图像的能力,并证明了这些结果可以用高斯过程来重现。最后,我们提供了校正预测分布的贝叶斯观点。

成为VIP会员查看完整内容
0
39

相关内容

贝叶斯方法可以用于学习神经网络权重的概率分布。将神经网络中的wi 和 b 由确定的值变成分布(distributions)。具体而言,为弥补反向传播的不足,通过在模型参数或模型输出上放置概率分布来估计。在权重上放置一个先验分布,然后尝试捕获这些权重在给定数据的情况下变化多少来模拟认知不确定性。该方法不是训练单个网络,而是训练网络集合,其中每个网络的权重来自共享的、已学习的概率分布。

随着web技术的发展,多模态或多视图数据已经成为大数据的主要流,每个模态/视图编码数据对象的单个属性。不同的模态往往是相辅相成的。这就引起了人们对融合多模态特征空间来综合表征数据对象的研究。大多数现有的先进技术集中于如何融合来自多模态空间的能量或信息,以提供比单一模态的同行更优越的性能。最近,深度神经网络展示了一种强大的架构,可以很好地捕捉高维多媒体数据的非线性分布,对多模态数据自然也是如此。大量的实证研究证明了深多模态方法的优势,从本质上深化了多模态深特征空间的融合。在这篇文章中,我们提供了从浅到深空间的多模态数据分析领域的现有状态的实质性概述。在整个调查过程中,我们进一步指出,该领域的关键要素是多模式空间的协作、对抗性竞争和融合。最后,我们就这一领域未来的一些方向分享我们的观点。

成为VIP会员查看完整内容
0
84

近年来,神经网络已成为分析复杂和抽象数据模型的有力工具。然而,它们的引入本质上增加了我们的不确定性,即分析的哪些特征是与模型相关的,哪些是由神经网络造成的。这意味着,神经网络的预测存在偏差,无法与数据的创建和观察的真实本质区分开来。为了尝试解决这些问题,我们讨论了贝叶斯神经网络:可以描述由网络引起的不确定性的神经网络。特别地,我们提出了贝叶斯统计框架,它允许我们根据观察某些数据的根深蒂固的随机性和我们缺乏关于如何创建和观察数据的知识的不确定性来对不确定性进行分类。在介绍这些技术时,我们展示了如何从原理上获得神经网络预测中的误差,并提供了描述这些误差的两种常用方法。我们还将描述这两种方法在实际应用时如何存在重大缺陷,并强调在使用神经网络时需要其他统计技术来真正进行推理。

成为VIP会员查看完整内容
0
58

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
64

题目: A simple baseline for bayesian uncertainty in deep learning

摘要:

本文提出了一种简单、可扩展、通用的面向深度学习的不确定性表示和标定方法SWA-Gaussian (SWAG)。随机加权平均(SWA)是一种计算随机梯度下降(SGD)的第一次迭代的改进学习速率调度方法,最近被证明可以提高深度学习的泛化能力。在SWAG中,我们以SWA解作为第一个矩来拟合高斯分布,并从SGD迭代中得到一个低秩加对角协方差,形成了一个近似的后验分布;然后我们从这个高斯分布中取样,进行贝叶斯模型平均。根据SGD迭代的平稳分布结果,我们发现SWAG近似真实后验的形状。此外,我们证明了SWAG在各种计算机视觉任务上表现良好,包括样本外检测、校准和迁移学习,与许多流行的替代方案相比,包括MC dropout、KFAC拉普拉斯和温度标度。

作者:

Wesley Maddox是纽约大学数据科学专业的博士生,研究方向是统计机器学习、贝叶斯深度学习、高斯过程和生成模型。正在研究在机器学习模型(如神经网络)中加入和利用不确定性的方法。

Pavel Izmailov是纽约大学计算机科学的博士生,研究方向主要包括深度学习中的损失面分析、优化和正则化,对深度半监督学习、贝叶斯深度学习、生成模型、高斯过程等课题也很感兴趣。

成为VIP会员查看完整内容
0
16
小贴士
相关论文
Davide Abati,Jakub Tomczak,Tijmen Blankevoort,Simone Calderara,Rita Cucchiara,Babak Ehteshami Bejnordi
5+阅读 · 3月31日
Emmanuel Bengio,Joelle Pineau,Doina Precup
6+阅读 · 3月13日
The Effect of Network Width on Stochastic Gradient Descent and Generalization: an Empirical Study
Daniel S. Park,Jascha Sohl-Dickstein,Quoc V. Le,Samuel L. Smith
3+阅读 · 2019年5月9日
Learning Discriminative Motion Features Through Detection
Gedas Bertasius,Christoph Feichtenhofer,Du Tran,Jianbo Shi,Lorenzo Torresani
3+阅读 · 2018年12月11日
A Hierarchical Neural Network for Sequence-to-Sequences Learning
Si Zuo,Zhimin Xu
3+阅读 · 2018年11月23日
Keyulu Xu,Weihua Hu,Jure Leskovec,Stefanie Jegelka
16+阅读 · 2018年10月1日
Implicit Maximum Likelihood Estimation
Ke Li,Jitendra Malik
6+阅读 · 2018年9月24日
Felix Laumann,Kumar Shridhar,Adrian Llopart Maurin
15+阅读 · 2018年6月27日
Xiangyu Zhao,Long Xia,Liang Zhang,Zhuoye Ding,Dawei Yin,Jiliang Tang
6+阅读 · 2018年5月7日
Marc Bosch,Christopher M. Gifford,Austin G. Dress,Clare W. Lau,Jeffrey G. Skibo,Gordon A. Christie
12+阅读 · 2018年1月31日
Top