图像描述生成研究进展

2021 年 3 月 29 日 专知

摘要: 图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术,包括整体架构、学习策略、特征映射、语言模型和注意机制.然后,按照发展进程将现有的图像描述生成方法分为4大类,即基于模板的方法、基于检索的方法、基于编码器-解码器架构的方法和基于复合架构的方法,并阐述了各类方法的基本概念、代表性方法和研究现状,重点讨论了基于编码器-解码器架构的各种方法及其创新思路,如多模态空间、视觉空间、语义空间、注意机制、模型优化等.接着,从实验的角度给出图像描述生成的常用数据集和评估措施,并在2个基准数据集上比较了一些典型方法的性能.最后,以提升图像描述的准确性、完整性、新颖性、多样性为依据,展示了图像描述生成的未来发展趋势.


随着互联网与信息技术的发展,多媒体数据呈现 爆炸性增长的趋势,从各种信息源(如网络、新闻、 相机等)上可获得的图像数据越来越多.由于图像数 据具有海量特性和非结构化特性,如何快速有效的组 织、存储和检索图像,成为重要的研究课题,而完备 的图像语义理解则是其中的关键问题[1].尽管从信息 源上获取的大多数图像并没有对应的语义描述,但人 类仍然能够在很大程度上理解它们.也就是说,人类 很容易就能完成涉及复杂视觉识别以及场景理解的 各种任务、涉及自然语言交流的各种任务以及 2 种模 态之间的转换任务.例如,只需快速浏览图像就足以 让人指出并描述关于视觉场景的大量细节,而这对于 机器来说目前仍然是难以完成的任务.为了实现图像 数据的结构化和半结构化,从语义上更完备地理解图 像数据,从而进一步研究更符合人类感知的视觉智 能,迫切需要机器能够为给定图像自动地生成自然语 言描述. 


计算机视觉研究如何理解图像和视频,而自然语 言处理研究如何分析和生成文本.尽管这 2 个领域的 研究都采用类似的人工智能和机器学习方法,但在很 长一段时间里它们都是各自发展而很少交叉.近几 年,结合视觉和语言的跨模态问题受到了广泛关 注.事实上,许多日常生活中的任务都具有这种跨模 态的特性.例如,看报纸时解释图片的上下文信息, 听报告时为理解讲话而搭配图表,网页上提供大量结 合视觉信息和自然语言的数据(带标签的照片、新闻 里的图片视频、具有多模态性质的社交媒体)等.为 完成结合视觉和语言的任务并充分利用多模态数据, 计算机视觉和自然语言处理 2 个领域的联系越来越 紧密. 在这个新的视觉和语言交叉的研究领域中,图像 描述生成是个重要的任务,该任务包括获取图像信 息、分析其视觉内容、生成文本描述以说明图像中的 显著物体和行为等步骤[2-5].图 1 给出了几个根据图 像内容生成描述语句的实例.



从计算机视觉的角度来看,图像描述生成是个重 大的挑战,因为描述可能涉及图像的各个方面——可 能是关于图像中的物体及其属性,也可能是关于场景 的特性或者是场景中人和物体的交互行为.而更具挑 战性的是,描述还可能指出图像中没有的物体(如等 待中的火车)或提供不能直接从图像推出的背景知识 (如画作中的蒙娜丽莎).总之,好的图像描述不仅 需要有完备的图像理解,还需要综合而精炼的表达, 因而图像描述生成任务对于计算机视觉系统是个良 好的测试.传统的视觉任务(如物体检测[6]或图像自 动标注[7])都是在有限个类别上测试检测器或分类器 的精确率.相比之下,图像描述生成任务更具综合 性.另一方面,从自然语言处理的角度来看,该任务 是个自然语言生成的问题,需要将 1 个非语言的表示 转换成 1 个可读的文本.一般来说,非语言表示是 1 个逻辑形式、1 个数据库查询或是 1 串数字,而图像 输入通常转换为 1 个中间表示向量(如深度特征表 示),需要语言模型将之转换成 1 个语句.


图像描述生成任务结合了计算机视觉和自然语 言处理 2 个研究领域,不仅要求完备的图像语义理 解,还要求复杂的符合人类感知的自然语言表达,具备重要的理论意义和应用前景[2-5].在理论上,图像 描述生成的研究将促进计算机视觉和自然语言处理 领域的发展.通过构建新的计算模型与计算方法,提 高计算机对非结构化信息的理解能力和对海量信息 的处理效率,从而为人工智能和认知科学的发展作贡 献.此外,图像描述生成还具有广阔的应用前景.首 先,图像描述生成技术可以应用于自动图像索引,这 对于提升图像检索的效果和效率具有重大意义,因而 图像描述生成可以应用于图像检索的多个应用领域, 包括医疗、商业、军事、教育、数字图书馆等;其次, 图像描述生成技术可以帮助社交媒体平台(如 Facebook,Twitter 等)为图像生成自然语言描述,包 括我们在哪里、穿什么和干什么等重要信息,可以直 接帮助和指导我们的日常生活;最后,图像描述生成 技术还可以在机器人交互、学前教育和视觉障碍辅助 等应用领域起到关键的作用.


https://crad.ict.ac.cn/CN/abstract/abstract4361.shtml#1




专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“图像描述生成” 就可以获取图像描述生成研究进展》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
1

相关内容

专知会员服务
63+阅读 · 2021年5月29日
跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
视觉目标跟踪十年研究进展
专知会员服务
85+阅读 · 2021年3月10日
专知会员服务
58+阅读 · 2021年3月6日
专知会员服务
83+阅读 · 2021年1月7日
专知会员服务
64+阅读 · 2020年12月24日
专知会员服务
101+阅读 · 2020年11月27日
 图像内容自动描述技术综述
专知会员服务
84+阅读 · 2019年11月17日
图像修复研究进展综述
专知
16+阅读 · 2021年3月9日
SFFAI 16 报名通知 | 视频生成介绍及最新进展
人工智能前沿讲习班
4+阅读 · 2019年1月4日
【学科发展报告】计算机视觉
中国自动化学会
42+阅读 · 2018年10月12日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
类脑信息处理研究取得进展
人工智能学家
4+阅读 · 2018年1月29日
【教程】如何使用深度学习为照片自动生成文本描述?
GAN生成式对抗网络
20+阅读 · 2017年11月19日
Arxiv
16+阅读 · 2021年1月27日
Image Captioning based on Deep Reinforcement Learning
VIP会员
相关VIP内容
专知会员服务
63+阅读 · 2021年5月29日
跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
视觉目标跟踪十年研究进展
专知会员服务
85+阅读 · 2021年3月10日
专知会员服务
58+阅读 · 2021年3月6日
专知会员服务
83+阅读 · 2021年1月7日
专知会员服务
64+阅读 · 2020年12月24日
专知会员服务
101+阅读 · 2020年11月27日
 图像内容自动描述技术综述
专知会员服务
84+阅读 · 2019年11月17日
相关资讯
图像修复研究进展综述
专知
16+阅读 · 2021年3月9日
SFFAI 16 报名通知 | 视频生成介绍及最新进展
人工智能前沿讲习班
4+阅读 · 2019年1月4日
【学科发展报告】计算机视觉
中国自动化学会
42+阅读 · 2018年10月12日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
类脑信息处理研究取得进展
人工智能学家
4+阅读 · 2018年1月29日
【教程】如何使用深度学习为照片自动生成文本描述?
GAN生成式对抗网络
20+阅读 · 2017年11月19日
Top
微信扫码咨询专知VIP会员