尽管近年来计算机视觉技术已经取得了长足的进步,但是对于复杂视觉场景 的感知和理解,目前的计算机模型表现还远远没有达到大规模普及和落地应用的 水平。为了充分地利用日常生活中海量的视觉媒体数据,复杂视觉场景的感知和理 解已经逐渐成为计算机视觉领域的一个研究热点。

本文将针对四个不同层次的视觉场景理解(物体级别识别、场景级别识别、场 景级别理解和场景级别推理),逐步地对复杂视觉场景中视觉内容的识别、检测和 推理进行研究。本文的关键技术线路主要聚焦于零样本物体分类、图像场景图生 成、图像描述生成、视频片段检索和视觉问答等具体视觉场景理解任务。在此研究 技术路线下,本文主要的研究内容和贡献如下:

1)针对零样本物体分类模型中普遍存在的语义丢失问题,本文提出一种全新 的零样本学习网络。该网络首次引入两个相互独立的映射网络分支,将图像分类和 图像重建两个原本相互冲突的任务分离出来。同时借助对抗学习,实现重建网络分 支和分类网络分支之间的属性迁移。

2)针对图像场景图生成模型中优化目标通常忽略不同物体的重要性差异的问 题,本文提出一种全新的训练框架,首次将图像场景图生成任务转化成一个多智能 体协同决策问题,从而可以直接将整个图像场景图质量作为模型的优化目标。同 时,本文还提出了一个反事实基准模型,可以有效地计算出每个物体类别预测对整 体场景图生成质量的局部贡献。

3)参考现有的空间注意力机制,本文首次提出通道注意力机制。同时,通过 充分挖掘卷积神经网络的特征图的三个不同维度(空间、通道和层级)之间的联系, 提出一种全新的空间和通道注意力网络。在图像描述生成任务中,该网络不仅极大 地提升了描述语句的生成质量,同时帮助人们理解在语句生成过程中特征图的变 化过程。

4)针对目前视频片段检索任务中两种主流框架(自顶向下和稀疏型自底向上) 的设计缺陷,本文提出了一种全新的密集型自底向上的框架。通过将动作边界定位问题分解成相关性预测和边界回归两个子问题,显著地降低了动作边界定位的难 度。同时,本文提出一个基于图卷积的特征金字塔层,来进一步增强骨干网络编码 能力。

5)针对目前视觉问答模型忽略的两个重要特性(视觉可解释性和问题敏感性), 本文提出了一种通用的反事实样本生成机制。通过遮盖图像中的重要区域或问题 中的重要单词,同时更改标准答案,来合成全新的反事实训练样本。通过使用原始 训练样本和反事实训练样本一起对模型进行训练,迫使视觉问答模型关注被遮盖 的重要内容,提升模型的视觉可解释性和问题敏感性。

地址:

https://zjuchenlong.github.io/

成为VIP会员查看完整内容
0
33

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。

互联网上短视频的快速涌现为视频内容的精准检索带来了前所未有的挑战。使用自然语言文本描述对视频进行跨模态检索(Cross-modal Video-Text Retrieval)是最符合自然人机交互的方式之一,能更加全面细粒度地表达用户检索需求,得到了越来越多的研究关注。

当前跨模态检索的主要方法将视频和文本模态映射到联合视觉语义空间以计算跨模态相似度。大部分工作[1,2]使用全局特征向量分别表示视频和文本信息,但是文本和视频中包含了丰富复杂的元素,例如图1中的事件检索涉及了不同的动作、实体、以及动作实体之间的关系等等,使用单一的特征表示很难捕获细粒度的语义信息。少量工作[3]提出细粒度的密集匹配,将视频和文本表示为序列化特征,对每一序列元素进行局部对齐匹配,融合得到全局跨模态相似度,然而仅使用序列化表示忽略了文本或视频内部复杂的拓扑结构,不能准确地表示事件中不同元素之间的关系,使得局部对齐匹配的语义表达能力下降。

视频文本匹配被分解包括事件(Event)、动作(Action)和实体(Entities)的三个层次,形成整体到局部的结构。一方面,模型可借助局部语义元素增强全局语义匹配;另一方面,全局语义信息也能帮助局部元素的语义理解,增强局部信息的跨模态匹配。

因此,我们提出了层次化图推理模型(Hierarchical Graph Reasoning model, HGR),更好地结合全局和局部密集匹配的优点,并弥补其不足。如图1所示,我们将视频文本匹配分解为三层的语义级别,分别负责刻画全局事件(Event)以及局部的动作(Action)和实体(Entities),以涵盖整体到局部的语义信息。首先对于文本编码,全局事件由整个句子表示,动作由动词表示,实体则由名词短语表示。不同语义级别不是独立的,它们之间的交互反映了它们在事件中扮演的语义角色(Semantic Role),因此我们建立三层语义级别的语义角色图(Semantic Role Graph),提出利用基于注意力的图推理方法来捕捉图中的交互信息。然后,不同层次的文本特征用于指导多样化的视频编码,视频也被编码为与事件、动作和实体相关的层次化表示。每一层次级通过注意力机制进行跨模态匹配,最后进行不同层次的融合。

我们在三个视频描述数据集上进行实验,从3个方面证明了所提出模型的有效性: 1) HGR模型在多个数据集中取得更好的跨模态检索结果;2) 在跨数据集实验中,HGR模型具有更强泛化性能;3) 提出了一个新的细粒度二元选择任务,HGR模型更能区分细粒度语义变化和选择更加全面的检索结果。

成为VIP会员查看完整内容
0
23

论文题目:

Compositional visual intelligence

作者:

Johnson Justin

贡献者:

Li, Fei Fei, 1976- degree supervisor.

Goodman, Noah, degree committee member.

Ré, Christopher, degree committee member.

Stanford University. Computer Science Departmen

网址:

https://searchworks.stanford.edu/view/12746402

论文摘要:

计算机视觉领域在过去几年取得了巨大的进步,这主要归功于卷积神经网络。尽管在传统的计算机视觉任务上取得了成功,但我们的机器系统离人类的一般视觉智能还有很长的路要走。视觉智能的一个重要方面是组合——对整体的理解源于对部分的理解。为了实现组成视觉智能的目标,我们必须探索新的计算机视觉任务,创建新的数据集,开发利用组成性的新模型。在这篇论文中,我将讨论我的工作在三个不同的计算机视觉任务涉及语言,其中包含的合规性帮助我们建立具有更丰富的视觉智能的系统。我将首先讨论图像标题描述:传统系统生成描述图像的简短句子,但是通过将图像分解为区域和描述分解为短语,我们可以生成两种更丰富的描述:密集的标题和段落。其次,我将讨论视觉问答:现有的数据集主要由简短的问题组成;为了研究更复杂的需要复合位置推理的问题,我们引入了一个新的benchark数据集。在此基础上,提出了一种可视化问题交互的显式组成模型,该模型将问题转换为功能程序,并通过组合神经模块来执行这些程序。第三,我将讨论文本到图像生成:现有的系统可以根据文本描述检索或生成单个对象的简单图像,但难以处理更复杂的描述。用对象和关系的构成场景图代替自由形式的自然语言,可以检索和生成包含多个对象的复杂图像。

成为VIP会员查看完整内容
justin_johnson_dissertation-augmented.pdf
0
10
小贴士
相关论文
Mesh R-CNN
Georgia Gkioxari,Jitendra Malik,Justin Johnson
3+阅读 · 2019年6月6日
An Analysis of Object Embeddings for Image Retrieval
Bor-Chun Chen,Larry S. Davis,Ser-Nam Lim
4+阅读 · 2019年5月28日
Bingyi Kang,Zhuang Liu,Xin Wang,Fisher Yu,Jiashi Feng,Trevor Darrell
4+阅读 · 2018年12月5日
Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network
Daan de Geus,Panagiotis Meletis,Gijs Dubbelman
4+阅读 · 2018年9月6日
Two Stream 3D Semantic Scene Completion
Martin Garbade,Johann Sawatzky,Juergen Gall
4+阅读 · 2018年7月16日
Xiang Wang,Shaodi You,Xi Li,Huimin Ma
3+阅读 · 2018年6月12日
Georgios Georgakis,Srikrishna Karanam,Ziyan Wu,Jan Ernst,Jana Kosecka
6+阅读 · 2018年5月9日
Lei Qi,Jing Huo,Lei Wang,Yinghuan Shi,Yang Gao
7+阅读 · 2018年4月11日
Shu Liu,Lu Qi,Haifang Qin,Jianping Shi,Jiaya Jia
3+阅读 · 2018年3月5日
Lingxiao He,Jian Liang,Haiqing Li,Zhenan Sun
9+阅读 · 2018年1月3日
Top