Automatic Image Captioning is the never-ending effort of creating syntactically and validating the accuracy of textual descriptions of an image in natural language with context. The encoder-decoder structure used throughout existing Bengali Image Captioning (BIC) research utilized abstract image feature vectors as the encoder's input. We propose a novel transformer-based architecture with an attention mechanism with a pre-trained ResNet-101 model image encoder for feature extraction from images. Experiments demonstrate that the language decoder in our technique captures fine-grained information in the caption and, then paired with image features, produces accurate and diverse captions on the BanglaLekhaImageCaptions dataset. Our approach outperforms all existing Bengali Image Captioning work and sets a new benchmark by scoring 0.694 on BLEU-1, 0.630 on BLEU-2, 0.582 on BLEU-3, and 0.337 on METEOR.


翻译:自动图像描述是一个永无休止的努力,目的是从整体上创建并验证自然语言图像文字描述的准确性。 在现有的孟加拉图像描述(BIC)中所使用的编码器解码器结构在现有的孟加拉图像描述(BIC)中使用抽象图像矢量作为编码器的输入。我们建议建立一个新型的变压器结构,其关注机制有事先经过培训的ResNet-101模型图像编码器,用于从图像中提取特征。实验表明,我们技术中的语言解码器在标题中捕捉精细刻的信息,然后与图像特征配对,制作关于BanglaLekhaimage Capitations数据集的准确和多样的字幕。我们的方法超越了所有现有的孟加拉图像描述工作,并通过在BLEU-1、BLEU-2、0.630在BLEU-2、0.582在BLEU-3和0.3在METEOR上通过评分0.337来设定新的基准。

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【Tutorial】计算机视觉中的Transformer,98页ppt
专知会员服务
150+阅读 · 2021年10月25日
最新《Transformers模型》教程,64页ppt
专知会员服务
317+阅读 · 2020年11月26日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
21+阅读 · 2018年5月23日
Arxiv
7+阅读 · 2018年4月21日
VIP会员
Top
微信扫码咨询专知VIP会员