Neural attention (NA) has become a key component of sequence-to-sequence models that yield state-of-the-art performance in as hard tasks as abstractive document summarization (ADS) and video captioning (VC). NA mechanisms perform inference of context vectors; these constitute weighted sums of deterministic input sequence encodings, adaptively sourced over long temporal horizons. Inspired from recent work in the field of amortized variational inference (AVI), in this work we consider treating the context vectors generated by soft-attention (SA) models as latent variables, with approximate finite mixture model posteriors inferred via AVI. We posit that this formulation may yield stronger generalization capacity, in line with the outcomes of existing applications of AVI to deep networks. To illustrate our method, we implement it and experimentally evaluate it considering challenging ADS, VC, and MT benchmarks. This way, we exhibit its improved effectiveness over state-of-the-art alternatives.


翻译:神经关注(NA)已成为序列到顺序模型的一个关键组成部分,这些模型在抽象文件总结和视频字幕等艰巨任务中产生最先进的性能。 NA机制对上下文矢量进行推断;这些是确定性输入序列编码的加权总和,可适应长时间跨度来源。根据最近在摊销变异推断(AVI)领域开展的工作,我们考虑将软注意(SA)模型产生的环境矢量作为潜在变量处理,通过AVI推断出近似有限混合物模型外延体。我们假设这种配方可产生更强的概括性能力,符合AVI对深层网络现有应用的结果。为了说明我们的方法,我们实施并实验性地评价它,考虑具有挑战性的ADS、VC和MT基准。这样,我们展示了它相对于最新替代品的更大效力。

1
下载
关闭预览

相关内容

【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
76+阅读 · 2020年2月3日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
6+阅读 · 2019年3月19日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
5+阅读 · 2018年5月28日
Arxiv
5+阅读 · 2018年1月16日
VIP会员
相关VIP内容
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
76+阅读 · 2020年2月3日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Top
微信扫码咨询专知VIP会员