Attention mechanism has been regarded as an advanced technique to capture long-range feature interactions and to boost the representation capability for convolutional neural networks. However, we found two ignored problems in current attentional activations-based models: the approximation problem and the insufficient capacity problem of the attention maps. To solve the two problems together, we initially propose an attention module for convolutional neural networks by developing an AW-convolution, where the shape of attention maps matches that of the weights rather than the activations. Our proposed attention module is a complementary method to previous attention-based schemes, such as those that apply the attention mechanism to explore the relationship between channel-wise and spatial features. Experiments on several datasets for image classification and object detection tasks show the effectiveness of our proposed attention module. In particular, our proposed attention module achieves 1.00% Top-1 accuracy improvement on ImageNet classification over a ResNet101 baseline and 0.63 COCO-style Average Precision improvement on the COCO object detection on top of a Faster R-CNN baseline with the backbone of ResNet101-FPN. When integrating with the previous attentional activations-based models, our proposed attention module can further increase their Top-1 accuracy on ImageNet classification by up to 0.57% and COCO-style Average Precision on the COCO object detection by up to 0.45. Code and pre-trained models will be publicly available.


翻译:关注机制被视为一种先进技术,可以捕捉长距离地物相互作用,提高进化神经网络的代表性能力。然而,我们发现当前关注启动模式中有两个被忽视的问题:近似问题和关注地图能力不足问题。为了共同解决这两个问题,我们最初建议为进化神经网络提供一个关注模块,开发AW-演化,关注图的形状与重力而非激活相匹配。我们提议的关注模块是对先前关注机制的一种补充方法,例如那些采用关注机制探索频道与空间特征之间关系的方案。关于图像分类和对象探测任务的若干数据集的实验显示了我们拟议的关注模块的有效性。特别是,我们提议的关注模块在ResNet101基线上实现了图像网络分类1.0%的顶部1级精确度,而在COCOCO的物体探测模型上,在快速R-CNN基线和ResNet101-FPN的主干线上,在与先前的焦点启动目标定位模型相结合时,CO-1010-FN之间的平均分辨率模型将进一步增加我们提议的图像网络的顶部1级精确度。

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
152+阅读 · 2020年5月26日
专知会员服务
59+阅读 · 2020年3月19日
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
Graph Neural Networks 综述
计算机视觉life
29+阅读 · 2019年8月13日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
22+阅读 · 2018年10月9日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
15+阅读 · 2019年4月4日
Arxiv
31+阅读 · 2018年11月13日
Arxiv
23+阅读 · 2018年10月24日
Arxiv
3+阅读 · 2018年2月11日
Arxiv
9+阅读 · 2018年2月4日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
152+阅读 · 2020年5月26日
专知会员服务
59+阅读 · 2020年3月19日
相关资讯
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
Graph Neural Networks 综述
计算机视觉life
29+阅读 · 2019年8月13日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
22+阅读 · 2018年10月9日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
相关论文
Arxiv
15+阅读 · 2019年4月4日
Arxiv
31+阅读 · 2018年11月13日
Arxiv
23+阅读 · 2018年10月24日
Arxiv
3+阅读 · 2018年2月11日
Arxiv
9+阅读 · 2018年2月4日
Top
微信扫码咨询专知VIP会员