动态 | 视觉问答领域又一力作!斯坦福大学教授发布图像场景图问答数据集 GQA

2019 年 1 月 30 日 AI科技评论

AI 科技评论消息:GQA 是斯坦福大学教授 Christopher Manning 及其学生 Drew Hudson 一同打造的全新图像场景图问答数据集,旨在推动场景理解与视觉问答研究领域的进步。

据 Christopher Manning 教授及其学生 Drew Hudson 调查后发现,现有的视觉问答数据集主要存在两种缺陷:一个是基准失误,当中包括了基于语言先验的偏见、视觉偏见、过分关注显着对象、来源有误、对象缺位、答案不合逻辑、模型反应不一致等;一个是推理数据集的数量很有限。

为此,他们开发了一个用于对现实世界的图像进行视觉推理与综合回答的全新数据集 GQA,该数据集包含高达 20M 的各种日常生活图像,主要源自于 COCO 和 Flickr。每张图像都与图中的物体、属性与关系的场景图(scene graph)相关,创建上基于最新清洁版本的 Visual Genome。此外,每个问题都与其语义的结构化表示相关联,功能程序上指定必须采取一定的推理步骤才能进行回答。

GQA 数据集的许多问题涉及多种推理技巧、空间理解以及多步推理,比起人们先前常用的视觉回答数据集,更具有挑战性。他们保证了数据集的平衡性,严格控制不同问题组的答案分布,以防止人们通过语言和世界先验知识进行有据猜测。

最后,他们通过一套全新的指标来完善数据集,该指标不仅能测试模型的精确度,还可预测模型响应的一致性、有效性与合理性,从而帮助我们更了解模型背后的运作原理。虽说问题是自动生成的,但由于生成主要基于自然语言众包场景图,因此在语法性、多样性和惯用性上将有所保障。

为了鼓励更多人尝试使用 GQA 数据集,他们将从 2019 年 2 月 开始举办相关比赛。他们希望 GQA 成为开发更强大和更有说服力的推理模型的关键助力,进而推动场景理解与视觉问答研究领域的进步。

via https://cs.stanford.edu/people/dorarad/gqa/download.html

点击阅读原文,查看 NeurIPS2018时间检验奖论文回顾:为什么深度学习适合大规模数据集

登录查看更多
1

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
34+阅读 · 2020年1月10日
【阿里技术论文】AliMe KBQA:阿里小蜜中的结构化知识问答
专知会员服务
82+阅读 · 2019年12月14日
深度学习视频中多目标跟踪:论文综述
专知会员服务
90+阅读 · 2019年10月13日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
5+阅读 · 2018年5月22日
VIP会员
Top
微信扫码咨询专知VIP会员