Transformers 在许多NLP任务中都是最先进的,并且也被应用到许多现实世界的产品中。理解变压器模型预测的可靠性和确定性对于构建可靠的机器学习应用(如医疗诊断)至关重要。虽然最近提出了许多Transformer的扩展,但对Transformer模型的不确定性估计的研究还不够深入。在本工作中,我们提出了一种新的方法,使Transformer具有不确定性估计的能力,同时,保持原有的预测性能。这是通过学习一个分层随机的自注意力来实现的,它分别关注值和一组可学习的质心。然后使用Gumbel-Softmax方法,将采样的质心混合形成新的注意力头。从理论上证明了从Gumbel分布中抽样得到的自注意力近似是有上界的。在两个具有域内(ID)和域外(OOD)数据集的文本分类任务上,我们实证地评估了我们的模型。实验结果表明,该方法具有较好的预测性能和不确定性权衡;(2)在ID数据集上表现出非常有竞争力的(在大多数情况下是改进的)预测性能;(3)在OOD数据集的不确定度估计方面与蒙特卡罗dropout和集成方法相当。

成为VIP会员查看完整内容
28

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【AAAI2022】注意力机制的快速蒙特卡罗近似
专知会员服务
19+阅读 · 2022年2月5日
专知会员服务
13+阅读 · 2021年10月9日
专知会员服务
24+阅读 · 2021年7月17日
【CVPR2021】现实世界域泛化的自适应方法
专知会员服务
53+阅读 · 2021年3月31日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
48+阅读 · 2021年2月7日
【NeurIPS 2020】深度学习的不确定性估计和鲁棒性
专知会员服务
49+阅读 · 2020年12月8日
专知会员服务
28+阅读 · 2020年12月7日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
26+阅读 · 2020年11月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
110+阅读 · 2019年11月25日
【ICLR2022】Transformers亦能贝叶斯推断
专知
0+阅读 · 2021年12月23日
【CVPR2021】现实世界域泛化的自适应方法
专知
5+阅读 · 2021年3月31日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
2+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
102+阅读 · 2021年6月8日
Arxiv
17+阅读 · 2021年3月29日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
VIP会员
相关VIP内容
【AAAI2022】注意力机制的快速蒙特卡罗近似
专知会员服务
19+阅读 · 2022年2月5日
专知会员服务
13+阅读 · 2021年10月9日
专知会员服务
24+阅读 · 2021年7月17日
【CVPR2021】现实世界域泛化的自适应方法
专知会员服务
53+阅读 · 2021年3月31日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
48+阅读 · 2021年2月7日
【NeurIPS 2020】深度学习的不确定性估计和鲁棒性
专知会员服务
49+阅读 · 2020年12月8日
专知会员服务
28+阅读 · 2020年12月7日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
26+阅读 · 2020年11月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
110+阅读 · 2019年11月25日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
相关论文
Arxiv
2+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
102+阅读 · 2021年6月8日
Arxiv
17+阅读 · 2021年3月29日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
微信扫码咨询专知VIP会员