Facebook开源看图问答模型Pythia:拿下VQA比赛冠军就靠它

2018 年 7 月 29 日 量子位
夏乙 发自 凹非寺
量子位 报道 | 公众号 QbitAI

——猫戴着什么?

——帽子。

——天气怎么样?

——下雨。

——披萨上面是什么?

——蘑菇。

看图回答这些问题,对我们人类来说再简单不过了,但是要让AI熟练掌握这项技能,还需要探索。

Facebook刚刚为这个领域的探索者们,开源了一个模块化视觉问答框架:Pythia

事情还要从在弗吉尼亚理工大学和乔治亚理工大学主办的视觉问答(Visual Question Ansering)比赛VQA Challenge说起。

比赛上,Facebook AI研究院(FAIR)队伍,A-STAR拿下了冠军。总成绩72.41分,排名第一,在是否(上图的Yes/No)、其他(Other)两类问题上也排名第一,分别拿下了87.7和63.95分,就是数学(Number)成绩差了点,51.51分,不及格,排在第六。

其他的参赛者,回答“是/否”都答得还算不错,回答数字都不及格,而答案五花八门的其他问题,也在及格线上下徘徊。

夺冠的FAIR观察发现,目前的视觉问答(VQA)模型,无外乎这样几个模块:问题编码、图像特征提取、答案空间分类。

于是,他们就想针对VQA领域,打造一个简单的模块化的模型研发平台,说不定还能顺便用在看图对话上。

建造平台的第一步,就是开源了A-STAR参赛所用模型的基础框架:Pythia,目前版本号v0.1。

为Pythia打下基础的,是2017年VQA Challenge冠军,Peter Anderson等人提出的Bottom-Up and Top-Down Attention模型。

Bottom-Up,指的是这个模型以ResNet-101为基干网络,用了Visual Genome数据集预训练的Faster-RCNN,用自底向上的注意力机制来提取图像特征。

而Top-Down,指的是根据问题(当前任务)来计算图像区域上的注意力分布。

在这个模型的基础上,FAIR团队做了一些调整。

比如说,将up-down模型里的双曲正切激活函数换成权重标准化+ReLU,用Adamax来优化模型,增大学习率。又比如,把bottom-up模型里的目标检测模型换成Detectron里的FPN,还对用到的数据集:Visual Genome、Visual Dialog等都做了数据扩增。

每一个模块的优化,都带来了模型性能的提升。

BTW,Facebook参赛队伍和框架的名字都别有深意。

队伍的名字——A-STAR,跟星星没什么关系,它是意思是能看、说话、行动、推理的智能体(Agents that See, Talk, Act, and Reason)

框架名字Pythia,也就是希腊神话中的皮提亚,德尔菲阿波罗神庙中的女祭司。女祭司的一项重要工作嘛,就是回答问题。

如果你也想搭一个会看图回答问题的模型,收好这份paper:

Pythia v0.1: the Winning Entry to the VQA Challenge 2018
*Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh
https://arxiv.org/pdf/1807.09956.pdf

以及开源代码:

https://github.com/facebookresearch/pythia

为它打下基础的Bottom-Up and Top-Down Attention:

https://github.com/hengyuan-hu/bottom-up-attention-vqa


加入社群

量子位AI社群18群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot8入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot8,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

实习生招聘

量子位正在招募活动运营实习生,策划执行AI明星公司CEO、高管等参与的线上/线下活动,有机会与AI行业大牛直接交流。工作地点在北京中关村。简历欢迎投递到quxin@qbitai.com


具体细节,请在量子位公众号(QbitAI)对话界面,回复“实习生”三个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


登录查看更多
5

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
29+阅读 · 2020年4月8日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
34+阅读 · 2020年1月10日
牛逼!深度学习又添新框架,来自Facebook 【Pythia】
机器学习算法与Python学习
7+阅读 · 2019年6月25日
AI会话能力超越人类!CoQA挑战赛微软创新纪录
由浅及深,细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia
GAN生成式对抗网络
50+阅读 · 2019年3月13日
问答系统冠军之路:用CNN做问答任务的QANet
AI科技评论
18+阅读 · 2018年5月11日
2017 VQA Challenge 第一名技术报告
PaperWeekly
7+阅读 · 2017年9月26日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
29+阅读 · 2020年4月8日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
34+阅读 · 2020年1月10日
Top
微信扫码咨询专知VIP会员