This paper proposes a variational self-attention model (VSAM) that employs variational inference to derive self-attention. We model the self-attention vector as random variables by imposing a probabilistic distribution. The self-attention mechanism summarizes source information as an attention vector by weighted sum, where the weights are a learned probabilistic distribution. Compared with conventional deterministic counterpart, the stochastic units incorporated by VSAM allow multi-modal attention distributions. Furthermore, by marginalizing over the latent variables, VSAM is more robust against overfitting. Experiments on the stance detection task demonstrate the superiority of our method.


翻译:本文建议采用可变自留模式(VSAM),采用可变推论获得自留自留。我们通过强制设定概率分布,将自留矢量作为随机变量进行模拟。自留机制将源信息以加权数汇总为注意矢量,加权数是经学习的概率分布。与常规的确定性对应方相比,由VSAM组成的随机单位允许多模式关注分布。此外,通过对潜在变量进行边缘化,VSAM更能防止过度配置。关于定位探测任务的实验显示了我们方法的优越性。

1
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 2
CreateAMind
6+阅读 · 2018年9月9日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Arxiv
6+阅读 · 2019年4月8日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
8+阅读 · 2018年5月21日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关资讯
相关论文
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Arxiv
6+阅读 · 2019年4月8日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
8+阅读 · 2018年5月21日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
3+阅读 · 2017年12月18日
Top
微信扫码咨询专知VIP会员