尽管近年来计算机视觉技术已经取得了长足的进步,但是对于复杂视觉场景 的感知和理解,目前的计算机模型表现还远远没有达到大规模普及和落地应用的 水平。为了充分地利用日常生活中海量的视觉媒体数据,复杂视觉场景的感知和理 解已经逐渐成为计算机视觉领域的一个研究热点。

本文将针对四个不同层次的视觉场景理解(物体级别识别、场景级别识别、场 景级别理解和场景级别推理),逐步地对复杂视觉场景中视觉内容的识别、检测和 推理进行研究。本文的关键技术线路主要聚焦于零样本物体分类、图像场景图生 成、图像描述生成、视频片段检索和视觉问答等具体视觉场景理解任务。在此研究 技术路线下,本文主要的研究内容和贡献如下:

1)针对零样本物体分类模型中普遍存在的语义丢失问题,本文提出一种全新 的零样本学习网络。该网络首次引入两个相互独立的映射网络分支,将图像分类和 图像重建两个原本相互冲突的任务分离出来。同时借助对抗学习,实现重建网络分 支和分类网络分支之间的属性迁移。

2)针对图像场景图生成模型中优化目标通常忽略不同物体的重要性差异的问 题,本文提出一种全新的训练框架,首次将图像场景图生成任务转化成一个多智能 体协同决策问题,从而可以直接将整个图像场景图质量作为模型的优化目标。同 时,本文还提出了一个反事实基准模型,可以有效地计算出每个物体类别预测对整 体场景图生成质量的局部贡献。

3)参考现有的空间注意力机制,本文首次提出通道注意力机制。同时,通过 充分挖掘卷积神经网络的特征图的三个不同维度(空间、通道和层级)之间的联系, 提出一种全新的空间和通道注意力网络。在图像描述生成任务中,该网络不仅极大 地提升了描述语句的生成质量,同时帮助人们理解在语句生成过程中特征图的变 化过程。

4)针对目前视频片段检索任务中两种主流框架(自顶向下和稀疏型自底向上) 的设计缺陷,本文提出了一种全新的密集型自底向上的框架。通过将动作边界定位问题分解成相关性预测和边界回归两个子问题,显著地降低了动作边界定位的难 度。同时,本文提出一个基于图卷积的特征金字塔层,来进一步增强骨干网络编码 能力。

5)针对目前视觉问答模型忽略的两个重要特性(视觉可解释性和问题敏感性), 本文提出了一种通用的反事实样本生成机制。通过遮盖图像中的重要区域或问题 中的重要单词,同时更改标准答案,来合成全新的反事实训练样本。通过使用原始 训练样本和反事实训练样本一起对模型进行训练,迫使视觉问答模型关注被遮盖 的重要内容,提升模型的视觉可解释性和问题敏感性。

地址:

https://zjuchenlong.github.io/

成为VIP会员查看完整内容
0
72

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。

目标检测和数据关联是多目标跟踪系统的关键组成部分。尽管这两个组件高度依赖于彼此,但MOT中的一个流行趋势是将检测和数据关联作为单独的模块执行,并按级联顺序处理。由于这种级联过程,所生成的MOT系统只能执行前向推理,而不能将错误反向传播到整个管道并进行纠正。这导致整个管道的性能低于最佳水平。为了解决这个问题,最近的工作联合优化了检测和数据关联,并形成了一个综合的MOT方法,已被证明提高了检测和跟踪的性能。为此,我们提出了一种基于图神经网络(GNNs)的联合MOT方法。该方法的关键思想是,GNNs能够在空间和时间域内显式地建模多个目标之间的复杂交互,这对于学习识别特征进行检测和数据关联至关重要。我们还利用了运动特征与外观特征一起使用时对MOT有用这一事实。因此,我们提出的联合MOT方法也将外观和运动特征纳入我们的基于图的特征学习框架,从而使MOT更好地学习特征。在MOT挑战数据集上的大量实验表明,我们提出的方法在目标检测和MOT检测上都取得了最先进的性能。

成为VIP会员查看完整内容
0
28

论文题目:

Compositional visual intelligence

作者:

Johnson Justin

贡献者:

Li, Fei Fei, 1976- degree supervisor.

Goodman, Noah, degree committee member.

Ré, Christopher, degree committee member.

Stanford University. Computer Science Departmen

网址:

https://searchworks.stanford.edu/view/12746402

论文摘要:

计算机视觉领域在过去几年取得了巨大的进步,这主要归功于卷积神经网络。尽管在传统的计算机视觉任务上取得了成功,但我们的机器系统离人类的一般视觉智能还有很长的路要走。视觉智能的一个重要方面是组合——对整体的理解源于对部分的理解。为了实现组成视觉智能的目标,我们必须探索新的计算机视觉任务,创建新的数据集,开发利用组成性的新模型。在这篇论文中,我将讨论我的工作在三个不同的计算机视觉任务涉及语言,其中包含的合规性帮助我们建立具有更丰富的视觉智能的系统。我将首先讨论图像标题描述:传统系统生成描述图像的简短句子,但是通过将图像分解为区域和描述分解为短语,我们可以生成两种更丰富的描述:密集的标题和段落。其次,我将讨论视觉问答:现有的数据集主要由简短的问题组成;为了研究更复杂的需要复合位置推理的问题,我们引入了一个新的benchark数据集。在此基础上,提出了一种可视化问题交互的显式组成模型,该模型将问题转换为功能程序,并通过组合神经模块来执行这些程序。第三,我将讨论文本到图像生成:现有的系统可以根据文本描述检索或生成单个对象的简单图像,但难以处理更复杂的描述。用对象和关系的构成场景图代替自由形式的自然语言,可以检索和生成包含多个对象的复杂图像。

成为VIP会员查看完整内容
justin_johnson_dissertation-augmented.pdf
0
31
小贴士
相关论文
Object-Contextual Representations for Semantic Segmentation
Yuhui Yuan,Xilin Chen,Jingdong Wang
6+阅读 · 2019年11月19日
UPSNet: A Unified Panoptic Segmentation Network
Yuwen Xiong,Renjie Liao,Hengshuang Zhao,Rui Hu,Min Bai,Ersin Yumer,Raquel Urtasun
3+阅读 · 2019年1月12日
Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation
Chenxi Liu,Liang-Chieh Chen,Florian Schroff,Hartwig Adam,Wei Hua,Alan Yuille,Li Fei-Fei
5+阅读 · 2019年1月10日
Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network
Daan de Geus,Panagiotis Meletis,Gijs Dubbelman
4+阅读 · 2018年9月6日
CoQA: A Conversational Question Answering Challenge
Siva Reddy,Danqi Chen,Christopher D. Manning
7+阅读 · 2018年8月21日
Yuan-Ting Hu,Jia-Bin Huang,Alexander G. Schwing
5+阅读 · 2018年3月29日
Hongyu Xu,Xutao Lv,Xiaoyu Wang,Zhou Ren,Navaneeth Bodla,Rama Chellappa
3+阅读 · 2018年3月27日
Shu Liu,Lu Qi,Haifang Qin,Jianping Shi,Jiaya Jia
3+阅读 · 2018年3月5日
Nelson Nauata,Jonathan Smith,Greg Mori
6+阅读 · 2018年1月21日
Jonathan Long,Evan Shelhamer,Trevor Darrell
3+阅读 · 2015年3月8日
Top