While models for Visual Question Answering (VQA) have steadily improved over the years, interacting with one quickly reveals that these models lack consistency. For instance, if a model answers "red" to "What color is the balloon?", it might answer "no" if asked, "Is the balloon red?". These responses violate simple notions of entailment and raise questions about how effectively VQA models ground language. In this work, we introduce a dataset, ConVQA, and metrics that enable quantitative evaluation of consistency in VQA. For a given observable fact in an image (e.g. the balloon's color), we generate a set of logically consistent question-answer (QA) pairs (e.g. Is the balloon red?) and also collect a human-annotated set of common-sense based consistent QA pairs (e.g. Is the balloon the same color as tomato sauce?). Further, we propose a consistency-improving data augmentation module, a Consistency Teacher Module (CTM). CTM automatically generates entailed (or similar-intent) questions for a source QA pair and fine-tunes the VQA model if the VQA's answer to the entailed question is consistent with the source QA pair. We demonstrate that our CTM-based training improves the consistency of VQA models on the ConVQA datasets and is a strong baseline for further research.


翻译:虽然视觉问答模型(VQA)多年来不断改善,但与一个快速互动的模型显示这些模型缺乏一致性。例如,如果一个模型回答“红”到“气球是什么颜色”?如果问“气球是红色吗?”,它可能会回答“否” 。这些答复违反了简单的要求概念,并提出了关于VQA模型地面语言如何有效的问题。在这项工作中,我们引入了一个数据集、ConVQA和能够对VQA一致性进行定量评估的衡量标准。对于一个图像(例如气球的颜色)中特定可见的事实,我们产生一套逻辑上一致的问答对(QA)配对(例如气球是红色吗?),它也可能回答“否” 。这些答复违反了简单的要求概念概念,并提出了关于VQA模型的一致性模型,如果我们CA对数据库的精确性要求我们的数据和CA的精确性答案是源。

3
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
6+阅读 · 2018年4月21日
VIP会员
相关VIP内容
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员