Attention mechanism目前有什么缺点和改进空间?

不管在机器翻译,还是图像识别,图像标注,vqa,attention机制都发挥着很大的作用,非常适合去学习不同模态数据间的关系,这种关系往往很复杂,也很…
关注者
651
被浏览
92,601
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

我是做 caption generation 的,如 image caption、video caption 以及其他的相关 task。attention mechanism 已经是相关 task 的标配,所以我说一点关于这方面的问题。

拿 image caption 来说,在生成每个单词时,一般情况下,我们拿上一个时刻的 hidden state 去attend “图像”,也就是卷积网络输出的 feature map。但实际上,我们是简单的用最后的卷积层将图像“分割”成一块块区域: H \times W \times C ,这里 C 是通道数(即特征维度),如对于 Inception-v4 来说就是 8 \times 8 \times 1024

这样粗糙的分割图像,最后 attend 的结果并不准确,Xu et al.[1] 文章里选取的例子可能是特意选取的。这种 attention 也没有额外的信息进行引导,可以认为是一种 weakly supervised 的方式。


轻拍╮( ̄▽ ̄)╭……


[1]. Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//International conference on machine learning. 2015: 2048-2057.