Attention mechanism目前有什么缺点和改进空间?
关注者
651被浏览
92,601登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
我是做 caption generation 的,如 image caption、video caption 以及其他的相关 task。attention mechanism 已经是相关 task 的标配,所以我说一点关于这方面的问题。
拿 image caption 来说,在生成每个单词时,一般情况下,我们拿上一个时刻的 hidden state 去attend “图像”,也就是卷积网络输出的 feature map。但实际上,我们是简单的用最后的卷积层将图像“分割”成一块块区域: H \times W \times C ,这里 C 是通道数(即特征维度),如对于 Inception-v4 来说就是 8 \times 8 \times 1024 。
这样粗糙的分割图像,最后 attend 的结果并不准确,Xu et al.[1] 文章里选取的例子可能是特意选取的。这种 attention 也没有额外的信息进行引导,可以认为是一种 weakly supervised 的方式。
轻拍╮( ̄▽ ̄)╭……
[1]. Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//International conference on machine learning. 2015: 2048-2057.