Current state-of-the-art image captioning models adopt autoregressive decoders, \ie they generate each word by conditioning on previously generated words, which leads to heavy latency during inference. To tackle this issue, non-autoregressive image captioning models have recently been proposed to significantly accelerate the speed of inference by generating all words in parallel. However, these non-autoregressive models inevitably suffer from large generation quality degradation since they remove words dependence excessively. To make a better trade-off between speed and quality, we introduce a semi-autoregressive model for image captioning~(dubbed as SATIC), which keeps the autoregressive property in global but generates words parallelly in local . Based on Transformer, there are only a few modifications needed to implement SATIC. Experimental results on the MSCOCO image captioning benchmark show that SATIC can achieve a good trade-off without bells and whistles. Code is available at {\color{magenta}\url{https://github.com/YuanEZhou/satic}}.


翻译:目前最先进的图像字幕模型采用自动递减解码器, \ 它们以先前生成的单词为条件生成每个单词, 从而导致在推断过程中出现严重延迟。 为了解决这一问题, 最近提出了非自动递减式图像字幕模型, 以通过平行生成所有单词来大大加快推论速度。 但是, 这些非递减型模型不可避免地会因代代代相传的质量大幅退化, 因为它们消除了对单词的过度依赖性。 为了在速度和质量之间实现更好的平衡, 我们引入了一个图像字幕( 以 SATIC ) 的半自动递增模式, 将自动递增属性保留在全球, 并同时生成本地的单词 。 基于变换器, 只需要做几处修改即可实施 SAPTIC 。 MOCO 图像字幕基准的实验结果显示, SATIC 可以实现良好的交易, 没有钟和哨子。 代码可在 {colora{ murl{https://github.com/ YuanEzou/stical_ 。

1
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
专知会员服务
25+阅读 · 2021年3月7日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
CVPR 2019 | 重磅!34篇 CVPR2019 论文实现代码
AI研习社
11+阅读 · 2019年6月21日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Image Captioning 36页最新综述, 161篇参考文献
专知
89+阅读 · 2018年10月23日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年10月13日
Arxiv
4+阅读 · 2019年8月7日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Arxiv
7+阅读 · 2018年11月27日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Arxiv
21+阅读 · 2018年5月23日
VIP会员
相关VIP内容
专知会员服务
25+阅读 · 2021年3月7日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
相关论文
Top
微信扫码咨询专知VIP会员