题目: A simple baseline for bayesian uncertainty in deep learning

摘要:

本文提出了一种简单、可扩展、通用的面向深度学习的不确定性表示和标定方法SWA-Gaussian (SWAG)。随机加权平均(SWA)是一种计算随机梯度下降(SGD)的第一次迭代的改进学习速率调度方法,最近被证明可以提高深度学习的泛化能力。在SWAG中,我们以SWA解作为第一个矩来拟合高斯分布,并从SGD迭代中得到一个低秩加对角协方差,形成了一个近似的后验分布;然后我们从这个高斯分布中取样,进行贝叶斯模型平均。根据SGD迭代的平稳分布结果,我们发现SWAG近似真实后验的形状。此外,我们证明了SWAG在各种计算机视觉任务上表现良好,包括样本外检测、校准和迁移学习,与许多流行的替代方案相比,包括MC dropout、KFAC拉普拉斯和温度标度。

作者:

Wesley Maddox是纽约大学数据科学专业的博士生,研究方向是统计机器学习、贝叶斯深度学习、高斯过程和生成模型。正在研究在机器学习模型(如神经网络)中加入和利用不确定性的方法。

Pavel Izmailov是纽约大学计算机科学的博士生,研究方向主要包括深度学习中的损失面分析、优化和正则化,对深度半监督学习、贝叶斯深度学习、生成模型、高斯过程等课题也很感兴趣。

成为VIP会员查看完整内容
43

相关内容

元学习(Meta-Learning) 综述及五篇顶会论文推荐
从零推导支持向量机 (SVM)
AI科技评论
9+阅读 · 2019年2月7日
一文了解采样方法
AI100
5+阅读 · 2018年7月6日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
12+阅读 · 2019年3月14日
Parsimonious Bayesian deep networks
Arxiv
5+阅读 · 2018年10月17日
Meta-Learning with Latent Embedding Optimization
Arxiv
6+阅读 · 2018年7月16日
Arxiv
5+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关VIP内容
相关论文
微信扫码咨询专知VIP会员