图像描述生成研究进展

2021 年 3 月 29 日 专知

摘要： 图像描述生成结合了计算机视觉和自然语言处理2个研究领域，不仅要求完备的图像语义理解，还要求复杂的自然语言表达，是进一步研究符合人类感知的视觉智能的关键任务．对图像描述生成的研究进展做了回顾．首先，归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术，包括整体架构、学习策略、特征映射、语言模型和注意机制．然后，按照发展进程将现有的图像描述生成方法分为4大类，即基于模板的方法、基于检索的方法、基于编码器-解码器架构的方法和基于复合架构的方法，并阐述了各类方法的基本概念、代表性方法和研究现状，重点讨论了基于编码器-解码器架构的各种方法及其创新思路，如多模态空间、视觉空间、语义空间、注意机制、模型优化等．接着，从实验的角度给出图像描述生成的常用数据集和评估措施，并在2个基准数据集上比较了一些典型方法的性能．最后，以提升图像描述的准确性、完整性、新颖性、多样性为依据，展示了图像描述生成的未来发展趋势.

随着互联网与信息技术的发展，多媒体数据呈现爆炸性增长的趋势，从各种信息源（如网络、新闻、相机等）上可获得的图像数据越来越多．由于图像数据具有海量特性和非结构化特性，如何快速有效的组织、存储和检索图像，成为重要的研究课题，而完备的图像语义理解则是其中的关键问题[1]．尽管从信息源上获取的大多数图像并没有对应的语义描述，但人类仍然能够在很大程度上理解它们．也就是说，人类很容易就能完成涉及复杂视觉识别以及场景理解的各种任务、涉及自然语言交流的各种任务以及 2 种模态之间的转换任务．例如，只需快速浏览图像就足以让人指出并描述关于视觉场景的大量细节，而这对于机器来说目前仍然是难以完成的任务．为了实现图像数据的结构化和半结构化，从语义上更完备地理解图像数据，从而进一步研究更符合人类感知的视觉智能，迫切需要机器能够为给定图像自动地生成自然语言描述．

计算机视觉研究如何理解图像和视频，而自然语言处理研究如何分析和生成文本．尽管这 2 个领域的研究都采用类似的人工智能和机器学习方法，但在很长一段时间里它们都是各自发展而很少交叉．近几年，结合视觉和语言的跨模态问题受到了广泛关注．事实上，许多日常生活中的任务都具有这种跨模态的特性．例如，看报纸时解释图片的上下文信息，听报告时为理解讲话而搭配图表，网页上提供大量结合视觉信息和自然语言的数据（带标签的照片、新闻里的图片视频、具有多模态性质的社交媒体）等．为完成结合视觉和语言的任务并充分利用多模态数据，计算机视觉和自然语言处理 2 个领域的联系越来越紧密．在这个新的视觉和语言交叉的研究领域中，图像描述生成是个重要的任务，该任务包括获取图像信息、分析其视觉内容、生成文本描述以说明图像中的显著物体和行为等步骤[2-5]．图 1 给出了几个根据图像内容生成描述语句的实例．

从计算机视觉的角度来看，图像描述生成是个重大的挑战，因为描述可能涉及图像的各个方面——可能是关于图像中的物体及其属性，也可能是关于场景的特性或者是场景中人和物体的交互行为．而更具挑战性的是，描述还可能指出图像中没有的物体（如等待中的火车）或提供不能直接从图像推出的背景知识（如画作中的蒙娜丽莎）．总之，好的图像描述不仅需要有完备的图像理解，还需要综合而精炼的表达，因而图像描述生成任务对于计算机视觉系统是个良好的测试．传统的视觉任务（如物体检测[6]或图像自动标注[7]）都是在有限个类别上测试检测器或分类器的精确率．相比之下，图像描述生成任务更具综合性．另一方面，从自然语言处理的角度来看，该任务是个自然语言生成的问题，需要将 1 个非语言的表示转换成 1 个可读的文本．一般来说，非语言表示是 1 个逻辑形式、1 个数据库查询或是 1 串数字，而图像输入通常转换为 1 个中间表示向量（如深度特征表示），需要语言模型将之转换成 1 个语句．

图像描述生成任务结合了计算机视觉和自然语言处理 2 个研究领域，不仅要求完备的图像语义理解，还要求复杂的符合人类感知的自然语言表达，具备重要的理论意义和应用前景[2-5]．在理论上，图像描述生成的研究将促进计算机视觉和自然语言处理领域的发展．通过构建新的计算模型与计算方法，提高计算机对非结构化信息的理解能力和对海量信息的处理效率，从而为人工智能和认知科学的发展作贡献．此外，图像描述生成还具有广阔的应用前景．首先，图像描述生成技术可以应用于自动图像索引，这对于提升图像检索的效果和效率具有重大意义，因而图像描述生成可以应用于图像检索的多个应用领域，包括医疗、商业、军事、教育、数字图书馆等；其次，图像描述生成技术可以帮助社交媒体平台（如 Facebook，Twitter 等）为图像生成自然语言描述，包括我们在哪里、穿什么和干什么等重要信息，可以直接帮助和指导我们的日常生活；最后，图像描述生成技术还可以在机器人交互、学前教育和视觉障碍辅助等应用领域起到关键的作用．

https://crad.ict.ac.cn/CN/abstract/abstract4361.shtml#1