基于视觉和语言的跨媒体问答与推理研究综述

2021 年 3 月 17 日 专知


摘要: 基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展。文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算法的研究进展,并将基于图像的视觉问答与推理细分为基于多模态融合、基于注意力机制和基于推理3类,将基于视觉常识推理细分为基于推理和基于预训练2类;然后总结了目前常用的问答与推理数据集,以及代表性的问答与推理模型在这些数据集上的实验结果;最后展望了基于视觉和语言的跨媒体问答与推理的未来发展方向。


http://www.jsjkx.com/CN/10.11896/jsjkx.201100176


随着现代科技的发展,以及多媒体传感器的相继出现和 大规模运用,不同媒介的信息覆盖了人类生活的方方面面,如 气味、语音、文本、图像、视频等,每一种模态都承载了不同的信息.跨媒体的信息交互往往能够传递更为丰富的信息,人 类的生活也因为多种视听媒介信息的交互而变得绚丽多彩, 其中尤其以视觉和语言的交互内容为主,如图像配以标题或 文章、视频配以字幕等.随着计算机处理能力的提升和人工 智能技术的进步,基于计算机视觉和自然语言处理的研究分别帮助计算机学会了如何去“看”和如何去“读”.由于视觉内 容细腻丰富,语言内容精炼准确,二者表达信息的能力各不相 同,存在一定的模态差异,因此研究基于视觉和语言的跨媒体 交互成为跨媒体智能的一个重要研究方向.


智能问答最早可追溯到人工智能诞生的时期.阿兰􀅰图 灵于1950年提出了著名的“图灵测试”,通过测试机器是否具 备正确回答问题的能力,来验证机器是否具有人类智能[1]. 基于视觉和语言的跨媒体问答与推理是智能问答系统的扩 展,要求问答系统在回答问题的同时考虑视觉信息和语言信 息,然后推理出正确答案.根据视觉媒介的不同,通常可分为 基于图像的问答与推理[2G3]、基于视频的问答与推理[4]和基于 视觉常识的问答与推理[5]3种常见的任务. 基于视觉和语言的问答与推理作为一个极具挑战性的研 究方向,涉及了计算机视觉技术、自然语言处理技术以及视觉 和语言的融合技术.对于基本的问答系统[6],通常包括了对 于视觉和语言两种模态的表征、跨模态融合和问答推理3个 步骤.得益于深度学习的快速发展,单一模态表征技术不断 更新完善[7G8],跨媒体问答任务的核心挑战在于跨模态融合和 问答推理两个部分.特别地,为了促进多模态特征间元素的 充分交互,本文提出了一种双线性融合的方法[9]来得到视觉G 语言的联合表达.相比常用的融合算法,即对应元素相加、对 应元素相乘和特征拼接等算法,所提方法能够获得充分包含 各模态信息的融合表示,从而提升了视觉问答任务的性能. 另外,注意力机制[10G11]是一种常用的解决视觉问答的推理方 法.通过捕捉与答案相关的视觉及语言信息,该方法提升了 视觉问答的性能并提高了其可解释性.除了基于自然图像和 视频的视觉问答与推理,目前已经开展了对于医疗图像问答 系统[12]及视觉对话系统[13G14]的研究.


本文系统地梳理了当前基于视觉和语言的跨媒体问答与 推理的相关工作,具体介绍了基于图像的视觉问答与推理、基 于视频的视觉问答与推理以及基于视觉常识推理模型与算法 的研究进展,同时总结了常用的视觉问答与推理的数据集,并 给出了代表性的方法在这些数据集上的实验结果.最后,本 文展望了基于视觉和语言的跨媒体问答与推理的未来发展 方向.


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“VLQR” 就可以获取基于视觉和语言的跨媒体问答与推理研究综述》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
5

相关内容

专知会员服务
63+阅读 · 2021年5月29日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
69+阅读 · 2021年3月29日
跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
专知会员服务
64+阅读 · 2020年12月24日
多模态视觉语言表征学习研究综述
专知会员服务
186+阅读 · 2020年12月3日
基于视觉的三维重建关键技术研究综述
专知会员服务
154+阅读 · 2020年5月1日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
111+阅读 · 2020年4月23日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
77+阅读 · 2019年10月12日
多模态视觉语言表征学习研究综述
专知
25+阅读 · 2020年12月3日
【哈工大SCIR】多模态情感分析简述
深度学习自然语言处理
33+阅读 · 2019年12月14日
机器推理系列第一弹:机器推理在常识问答任务中的应用
微软研究院AI头条
3+阅读 · 2019年9月16日
神经机器阅读理解最新综述:方法和趋势
PaperWeekly
15+阅读 · 2019年7月25日
基于深度学习的视频目标检测综述
CVer
7+阅读 · 2019年6月9日
情感计算综述
人工智能学家
31+阅读 · 2019年4月6日
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
64+阅读 · 2018年7月13日
【观点】计算机视觉:历史、现状和发展趋势|胡占义研究员
中国科学院自动化研究所
12+阅读 · 2017年11月21日
VALSE2017系列之七:视觉与语言领域年度进展概述
深度学习大讲堂
9+阅读 · 2017年7月11日
Arxiv
18+阅读 · 2020年10月9日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
3+阅读 · 2018年3月22日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
专知会员服务
63+阅读 · 2021年5月29日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
69+阅读 · 2021年3月29日
跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
专知会员服务
64+阅读 · 2020年12月24日
多模态视觉语言表征学习研究综述
专知会员服务
186+阅读 · 2020年12月3日
基于视觉的三维重建关键技术研究综述
专知会员服务
154+阅读 · 2020年5月1日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
111+阅读 · 2020年4月23日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
77+阅读 · 2019年10月12日
相关资讯
多模态视觉语言表征学习研究综述
专知
25+阅读 · 2020年12月3日
【哈工大SCIR】多模态情感分析简述
深度学习自然语言处理
33+阅读 · 2019年12月14日
机器推理系列第一弹:机器推理在常识问答任务中的应用
微软研究院AI头条
3+阅读 · 2019年9月16日
神经机器阅读理解最新综述:方法和趋势
PaperWeekly
15+阅读 · 2019年7月25日
基于深度学习的视频目标检测综述
CVer
7+阅读 · 2019年6月9日
情感计算综述
人工智能学家
31+阅读 · 2019年4月6日
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
64+阅读 · 2018年7月13日
【观点】计算机视觉:历史、现状和发展趋势|胡占义研究员
中国科学院自动化研究所
12+阅读 · 2017年11月21日
VALSE2017系列之七:视觉与语言领域年度进展概述
深度学习大讲堂
9+阅读 · 2017年7月11日
相关论文
Arxiv
18+阅读 · 2020年10月9日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
3+阅读 · 2018年3月22日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
9+阅读 · 2016年10月27日
Top
微信扫码咨询专知VIP会员