【AAAI2022】基于分层随机注意的Transformer 不确定性估计 - 专知VIP

会员服务 ·

4

Transformer · AAAI 2022 · 论文 ·

2021 年 12 月 29 日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Transformers 在许多NLP任务中都是最先进的，并且也被应用到许多现实世界的产品中。理解变压器模型预测的可靠性和确定性对于构建可靠的机器学习应用(如医疗诊断)至关重要。虽然最近提出了许多Transformer的扩展，但对Transformer模型的不确定性估计的研究还不够深入。在本工作中，我们提出了一种新的方法，使Transformer具有不确定性估计的能力，同时，保持原有的预测性能。这是通过学习一个分层随机的自注意力来实现的，它分别关注值和一组可学习的质心。然后使用Gumbel-Softmax方法，将采样的质心混合形成新的注意力头。从理论上证明了从Gumbel分布中抽样得到的自注意力近似是有上界的。在两个具有域内(ID)和域外(OOD)数据集的文本分类任务上，我们实证地评估了我们的模型。实验结果表明，该方法具有较好的预测性能和不确定性权衡;(2)在ID数据集上表现出非常有竞争力的(在大多数情况下是改进的)预测性能;(3)在OOD数据集的不确定度估计方面与蒙特卡罗dropout和集成方法相当。

成为VIP会员查看完整内容

28

相关内容

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知会员服务

19+阅读 · 2022年2月5日

【ICCV2021】递阶变分神经不确定性模型的随机视频预测

专知会员服务

13+阅读 · 2021年10月9日

【KDD2021】识别不确定性的可靠文本分类

专知会员服务

24+阅读 · 2021年7月17日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知会员服务

53+阅读 · 2021年3月31日

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

专知会员服务

13+阅读 · 2021年2月15日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

48+阅读 · 2021年2月7日

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

专知会员服务

49+阅读 · 2020年12月8日

【AAAI2021】元标签校正的噪声标签学习

专知会员服务

28+阅读 · 2020年12月7日

【WSDM2021】拓扑去噪的鲁棒图神经网络

【WSDM2021】拓扑去噪的鲁棒图神经网络

专知会员服务

26+阅读 · 2020年11月14日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知会员服务

110+阅读 · 2019年11月25日

AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取

AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取

PaperWeekly

1+阅读 · 2022年3月17日

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

CVer

2+阅读 · 2022年2月8日

【ICLR2022】基于任务相关性的元学习泛化边界

【ICLR2022】基于任务相关性的元学习泛化边界

专知

2+阅读 · 2022年2月8日

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知

0+阅读 · 2022年2月5日

【ICLR2022】Transformers亦能贝叶斯推断

【ICLR2022】Transformers亦能贝叶斯推断

专知

0+阅读 · 2021年12月23日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知

2+阅读 · 2021年12月21日

超越GPT-3！NormFormer：归一化提高预训练、缓解梯度不匹配

超越GPT-3！NormFormer：归一化提高预训练、缓解梯度不匹配

PaperWeekly

1+阅读 · 2021年12月2日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知

5+阅读 · 2021年3月31日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

244+阅读 · 2019年11月18日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

鲁棒模型拟合中的关键问题研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

带噪声 Radon 逆问题的点态估计

国家自然科学基金

0+阅读 · 2014年12月31日

大范围不确定随机线性系统自适应滤波估计及其若干应用

国家自然科学基金

1+阅读 · 2014年12月31日

几类随机过程的局部稳健估计研究及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

多尺度电磁场问题的高效数值方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

多元线性整值时间序列的统计分析

国家自然科学基金

2+阅读 · 2013年12月31日

基于变系数模型与函数逼近的非线性非平稳系统建模与预测研究

国家自然科学基金

0+阅读 · 2012年12月31日

多随机激励下风电机组在线辨识建模研究

国家自然科学基金

0+阅读 · 2012年12月31日

气化炉控制系统设计的随机方法

国家自然科学基金

0+阅读 · 2011年12月31日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Marginal log-linear models and mediation analysis

Arxiv

0+阅读 · 2022年4月18日

CAMERO: Consistency Regularized Ensemble of Perturbed Language Models with Weight Sharing

CAMERO: Consistency Regularized Ensemble of Perturbed Language Models with Weight Sharing

Arxiv

0+阅读 · 2022年4月18日

SVIP: Sequence VerIfication for Procedures in Videos

Arxiv

0+阅读 · 2022年4月17日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Causal Transformer for Estimating Counterfactual Outcomes

Arxiv

0+阅读 · 2022年4月14日

A Survey of Transformers

Arxiv

102+阅读 · 2021年6月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

VIP会员

相关主题

相关VIP内容

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知会员服务

19+阅读 · 2022年2月5日

【ICCV2021】递阶变分神经不确定性模型的随机视频预测

专知会员服务

13+阅读 · 2021年10月9日

【KDD2021】识别不确定性的可靠文本分类

专知会员服务

24+阅读 · 2021年7月17日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知会员服务

53+阅读 · 2021年3月31日

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

专知会员服务

13+阅读 · 2021年2月15日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

48+阅读 · 2021年2月7日

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

专知会员服务

49+阅读 · 2020年12月8日

【AAAI2021】元标签校正的噪声标签学习

专知会员服务

28+阅读 · 2020年12月7日

【WSDM2021】拓扑去噪的鲁棒图神经网络

【WSDM2021】拓扑去噪的鲁棒图神经网络

专知会员服务

26+阅读 · 2020年11月14日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知会员服务

110+阅读 · 2019年11月25日

热门VIP内容

相关资讯

AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取

AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取

PaperWeekly

1+阅读 · 2022年3月17日

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

CVer

2+阅读 · 2022年2月8日

【ICLR2022】基于任务相关性的元学习泛化边界

【ICLR2022】基于任务相关性的元学习泛化边界

专知

2+阅读 · 2022年2月8日

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知

0+阅读 · 2022年2月5日

【ICLR2022】Transformers亦能贝叶斯推断

【ICLR2022】Transformers亦能贝叶斯推断

专知

0+阅读 · 2021年12月23日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知

2+阅读 · 2021年12月21日

超越GPT-3！NormFormer：归一化提高预训练、缓解梯度不匹配

超越GPT-3！NormFormer：归一化提高预训练、缓解梯度不匹配

PaperWeekly

1+阅读 · 2021年12月2日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知

5+阅读 · 2021年3月31日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

244+阅读 · 2019年11月18日

相关基金

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

鲁棒模型拟合中的关键问题研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

带噪声 Radon 逆问题的点态估计

国家自然科学基金

0+阅读 · 2014年12月31日

大范围不确定随机线性系统自适应滤波估计及其若干应用

国家自然科学基金

1+阅读 · 2014年12月31日

几类随机过程的局部稳健估计研究及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

多尺度电磁场问题的高效数值方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

多元线性整值时间序列的统计分析

国家自然科学基金

2+阅读 · 2013年12月31日

基于变系数模型与函数逼近的非线性非平稳系统建模与预测研究

国家自然科学基金

0+阅读 · 2012年12月31日

多随机激励下风电机组在线辨识建模研究

国家自然科学基金

0+阅读 · 2012年12月31日

气化炉控制系统设计的随机方法

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Marginal log-linear models and mediation analysis

Arxiv

0+阅读 · 2022年4月18日

CAMERO: Consistency Regularized Ensemble of Perturbed Language Models with Weight Sharing

CAMERO: Consistency Regularized Ensemble of Perturbed Language Models with Weight Sharing

Arxiv

0+阅读 · 2022年4月18日

SVIP: Sequence VerIfication for Procedures in Videos

Arxiv

0+阅读 · 2022年4月17日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Causal Transformer for Estimating Counterfactual Outcomes

Arxiv

0+阅读 · 2022年4月14日

A Survey of Transformers

Arxiv

102+阅读 · 2021年6月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

微信扫码咨询专知VIP会员