基于视觉和语言的跨媒体问答与推理研究综述

2021 年 3 月 17 日 专知

摘要：基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展。文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算法的研究进展,并将基于图像的视觉问答与推理细分为基于多模态融合、基于注意力机制和基于推理3类,将基于视觉常识推理细分为基于推理和基于预训练2类;然后总结了目前常用的问答与推理数据集,以及代表性的问答与推理模型在这些数据集上的实验结果;最后展望了基于视觉和语言的跨媒体问答与推理的未来发展方向。

http://www.jsjkx.com/CN/10.11896/jsjkx.201100176

随着现代科技的发展,以及多媒体传感器的相继出现和大规模运用,不同媒介的信息覆盖了人类生活的方方面面,如气味、语音、文本、图像、视频等,每一种模态都承载了不同的信息.跨媒体的信息交互往往能够传递更为丰富的信息,人类的生活也因为多种视听媒介信息的交互而变得绚丽多彩, 其中尤其以视觉和语言的交互内容为主,如图像配以标题或文章、视频配以字幕等.随着计算机处理能力的提升和人工智能技术的进步,基于计算机视觉和自然语言处理的研究分别帮助计算机学会了如何去“看”和如何去“读”.由于视觉内容细腻丰富,语言内容精炼准确,二者表达信息的能力各不相同,存在一定的模态差异,因此研究基于视觉和语言的跨媒体交互成为跨媒体智能的一个重要研究方向.

智能问答最早可追溯到人工智能诞生的时期.阿兰􀅰图灵于１９５０年提出了著名的“图灵测试”,通过测试机器是否具备正确回答问题的能力,来验证机器是否具有人类智能[１]. 基于视觉和语言的跨媒体问答与推理是智能问答系统的扩展,要求问答系统在回答问题的同时考虑视觉信息和语言信息,然后推理出正确答案.根据视觉媒介的不同,通常可分为基于图像的问答与推理[２Ｇ３]、基于视频的问答与推理[４]和基于视觉常识的问答与推理[５]３种常见的任务. 基于视觉和语言的问答与推理作为一个极具挑战性的研究方向,涉及了计算机视觉技术、自然语言处理技术以及视觉和语言的融合技术.对于基本的问答系统[６],通常包括了对于视觉和语言两种模态的表征、跨模态融合和问答推理３个步骤.得益于深度学习的快速发展,单一模态表征技术不断更新完善[７Ｇ８],跨媒体问答任务的核心挑战在于跨模态融合和问答推理两个部分.特别地,为了促进多模态特征间元素的充分交互,本文提出了一种双线性融合的方法[９]来得到视觉Ｇ语言的联合表达.相比常用的融合算法,即对应元素相加、对应元素相乘和特征拼接等算法,所提方法能够获得充分包含各模态信息的融合表示,从而提升了视觉问答任务的性能. 另外,注意力机制[１０Ｇ１１]是一种常用的解决视觉问答的推理方法.通过捕捉与答案相关的视觉及语言信息,该方法提升了视觉问答的性能并提高了其可解释性.除了基于自然图像和视频的视觉问答与推理,目前已经开展了对于医疗图像问答系统[１２]及视觉对话系统[１３Ｇ１４]的研究.

本文系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算法的研究进展,同时总结了常用的视觉问答与推理的数据集,并给出了代表性的方法在这些数据集上的实验结果.最后,本文展望了基于视觉和语言的跨媒体问答与推理的未来发展方向.

专知便捷查看