【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

7 月 26 日 专知
【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

尽管近年来计算机视觉技术已经取得了长足的进步,但是对于复杂视觉场景 的感知和理解,目前的计算机模型表现还远远没有达到大规模普及和落地应用的 水平。为了充分地利用日常生活中海量的视觉媒体数据,复杂视觉场景的感知和理 解已经逐渐成为计算机视觉领域的一个研究热点。 


本文将针对四个不同层次的视觉场景理解(物体级别识别、场景级别识别、场 景级别理解和场景级别推理),逐步地对复杂视觉场景中视觉内容的识别、检测和 推理进行研究。本文的关键技术线路主要聚焦于零样本物体分类、图像场景图生 成、图像描述生成、视频片段检索和视觉问答等具体视觉场景理解任务。在此研究 技术路线下,本文主要的研究内容和贡献如下: 


1)针对零样本物体分类模型中普遍存在的语义丢失问题,本文提出一种全新 的零样本学习网络。该网络首次引入两个相互独立的映射网络分支,将图像分类和 图像重建两个原本相互冲突的任务分离出来。同时借助对抗学习,实现重建网络分 支和分类网络分支之间的属性迁移。


2)针对图像场景图生成模型中优化目标通常忽略不同物体的重要性差异的问 题,本文提出一种全新的训练框架,首次将图像场景图生成任务转化成一个多智能 体协同决策问题,从而可以直接将整个图像场景图质量作为模型的优化目标。同 时,本文还提出了一个反事实基准模型,可以有效地计算出每个物体类别预测对整 体场景图生成质量的局部贡献。


3)参考现有的空间注意力机制,本文首次提出通道注意力机制。同时,通过 充分挖掘卷积神经网络的特征图的三个不同维度(空间、通道和层级)之间的联系, 提出一种全新的空间和通道注意力网络。在图像描述生成任务中,该网络不仅极大 地提升了描述语句的生成质量,同时帮助人们理解在语句生成过程中特征图的变 化过程。 


4)针对目前视频片段检索任务中两种主流框架(自顶向下和稀疏型自底向上) 的设计缺陷,本文提出了一种全新的密集型自底向上的框架。通过将动作边界定位问题分解成相关性预测和边界回归两个子问题,显著地降低了动作边界定位的难 度。同时,本文提出一个基于图卷积的特征金字塔层,来进一步增强骨干网络编码 能力。 


5)针对目前视觉问答模型忽略的两个重要特性(视觉可解释性和问题敏感性), 本文提出了一种通用的反事实样本生成机制。通过遮盖图像中的重要区域或问题 中的重要单词,同时更改标准答案,来合成全新的反事实训练样本。通过使用原始 训练样本和反事实训练样本一起对模型进行训练,迫使视觉问答模型关注被遮盖 的重要内容,提升模型的视觉可解释性和问题敏感性。


地址:

https://zjuchenlong.github.io/


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“CVSU” 可以获取《面向复杂场景理解的视觉内容识别、检测与推理方法研究》专知下载链接索引

专 · 知
专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看5000+AI主题知识资料
登录查看更多
0

相关内容

使用生成模型的无监督学习具有发现3D场景丰富表示的潜力。这种神经场景表示可能随后支持各种下游任务,从机器人技术到计算机图形再到医学成像。然而,现有的方法忽略了场景最基本的属性之一:三维结构。在这项工作中,我们使神经场景表征与一个感应偏差的三维结构的情况。我们证明了这种归纳偏差如何使无监督的发现几何和外观,只给定的二维图像。通过学习一组这样的三维结构感知神经表征的分布,我们可以执行联合重建的三维形状和外观只给出一个单一的二维观察。我们表明,在这个过程中学习到的特征使整个类对象的三维语义分割成为可能,只训练了30个带标记的例子,证明了三维形状、外观和语义分割之间的紧密联系。最后,我们讨论了场景表示学习在计算机视觉本身中的本质和潜在作用,并讨论了未来工作的前景。

成为VIP会员查看完整内容
0
33

摘要:场景分割问题是计算机视觉领域基本而重要的问题,具有广泛的应用价值。 场景分割需要解决的科学问题是如何对场景中的要素进行精确分割。其主要难 点在于场景图像的结构十分复杂,包含多种类别和多种尺度的要素,且这些要素 之间存在着丰富的空间关系。同时在实际应用中,在保证场景分割精度的条件下 也需要综合考虑计算复杂度和速度。因此,场景分割问题的主要难点和挑战可概 括为三个方面:1)尺度变换多样,2)空间关系复杂,3)时间复杂度高。近年来, 基于深度学习,尤其是卷积神经网络的方法在场景分割领域取得了巨大的进展, 但基于深度学习的场景分割方法还存在着一定的局限性。本课题对基于深度学 习的场景分割方法进行研究,针对上述三个难点和挑战,取得了以下成果:

  1. 基于尺度自适应卷积的场景分割方法 目前基于深度学习的场景分割方法主要利用标准卷积,其感受野大小固定。 而场景图像中要素的尺度变化多样,导致大尺度要素分割结果不连续,小尺度要 素与背景混淆而遗漏的问题。针对该问题,我们提出尺度自适应卷积方法,对场 景图像中不同尺度的要素自适应改变卷积感受野大小。该方法可以缓解由于标 准卷积感受野固定引起的大尺度要素分割结果不连续和小尺度要素被遗漏的问 题。尺度自适应卷积的整个过程是可导的,其卷积参数可以利用一个端到端的结 构从数据中自动和隐式的学习。我们在 Cityscapes 和 ADE20K 两个数据集上验 证了尺度自适应卷积的有效性。

  2. 基于全局和局部修正的场景分割方法 场景图像中具有复杂的空间关系和丰富的上下文信息,对场景中要素的识 别具有极大的帮助作用。我们分别利用全局上下文信息和局部上下文信息对给 定的场景分割结果进行修正。我们首先提出全局残差修正网络,通过捕捉图像中 的全局上下文信息进行分割结果的修正。经过全局残差修正网络修正之后,原 始分割结果中不一致、不连续的区域将被修正。其次,我们提出局部边界修正网 络,通过捕捉图像中的局部上下文信息,对给定分割结果的边界和细节进行修 正。经过局部边界修正网络修正之后,原始分割结果中的分割边界将更加精确和 平滑。这两种修正网络均可单独使用,也可以级联在给定的分割网络之后形成一 个统一框架,以共同提高修正结果的精度。在 Cityscapes 和 ADE20K 两个数据 集上的结果显示这两种修正网络可以有效提高给定分割结果的精度。

  3. 基于高分辨率特征图重建的场景分割加速方法 现有大多数场景分割方法着眼于提高模型的分割精度,因此使用较深的神 经网络和较高分辨率的特征图,分割精度较高但速度较慢。为解决由于较大尺寸 输入图像和高分辨率特征图导致的场景分割速度较慢的问题,我们提出高分辨 率特征图重建方法对任意给定的场景分割框架进行加速。该方法利用降采样输 入图像的特征图对原始大小输入图像的特征图进行重建。利用降采样输入图像 进行特征学习的速度较快,而重建原始大小输入图像的特征图可以缓解使用降 采样输入图像导致的细节丢失和精度下降问题。我们在两个公开数据集上验证 了高分辨率特征图重建方法的有效性,当使用 1/2 降采样率时,可以在分割精度 损失忽略不计的情况下得到约 3 倍的加速比。

关键词:场景分割,深度学习,尺度自适应卷积,全局和局部修正网络,高分辨 率特征图重建

作者简介:张蕊,2009年9月-2013 年7月,在北京航空航天大学数学与系统科学学院获理学学士学位。2013年9月-2019年7月,在中国科学院计算技术研究所攻读博士学位,博士生导师是李锦涛。

成为VIP会员查看完整内容
0
16

论文题目:面向社会计算的网络表示学习

作者:涂存超

导师:孙茂松, 刘知远

网址:http://nlp.csai.tsinghua.edu.cn/~tcc/#Thesis

论文摘要:在数据挖掘和社交网络分析中,对于网络节点的特征表示一直至关重要。随 着大规模社会网络的出现,传统的网络表示方法面临着计算效率以及可解释性的 问题。此外,这些社会网络往往蕴含着丰富的异构信息,这些特点使得已有的网 络表示方法不能很好的处理这些大规模社会网络。 网络表示学习(NetworkRepresentationLearning),也就是网络嵌入(Network Embedding),目的是为网络中的节点学习一个低维实值的向量表示。每个节点对 应的表示向量蕴含了该节点的网络结构信息以及其它异构信息,这些表示向量一 般被当作特征向量,来进行进一步的网络分析任务,例如节点分类、链接预测、社 区发现等。本文针对网络节点表示已有工作的不足,提出了在社会网络中学习节 点显式及隐式表示的思路,来学习高质量的网络节点特征向量和提高社交网络分 析任务的效果。为了学习网络节点显式的特征表示,我们进行了如下工作:(1)基 于词项的显式网络表示:针对网络节点分类任务,我们提出一种双层分类模型,融 合利用社交网络用户异构文本信息和网络结构信息,来进行职业预测任务。(2)基 于主题标签的显式网络表示:为了提高用户特征表示的可解释性问题,我们提出 利用显式的标签来表示用户节点,探究标签与社交网络用户社交行为之间的对应 关系,进行用户标签推荐任务。 虽然网络节点显式表示可解释性强,但它面临着计算效率的问题。基于表示 学习在图像、语音、文本等领域成功应用,我们提出了一系列基于深度学习的网 络表示学习的方法,来学习网络节点的隐式低维表示。这些工作包括:(1)基于最 大间隔的隐式网络表示:为了提高网络节点表示的区分性及其在节点分类上的效 果,提出基于最大间隔理论的有区分性的网络表示学习模型,同时训练网络表示 学习模型和最大间隔分类器,显著提升了网络节点分类的效果。(2)上下文相关 的隐式网络表示:针对链接预测任务,提出上下文相关的网络表示学习模型,根据 网络节点交互的邻居节点的不同,结合文本信息来学习节点动态的表示向量。由 于引入了互相注意力机制,该模型能够显著提高链接预测任务的效果。(3)面向 社会关系抽取的隐式网络表示:为了更好的对节点之间边上的语义信息进行建模, 提出基于平移思想的网络表示学习模型,考虑节点之间边上的标签信息,来进行 社会关系抽取任务。(4)社区优化的隐式网络表示:为了考虑社会网络中全局的 社区特征,我们利用网络中的社区与文本中的主题之间的类比关系,提出了社区 优化的网络表示学习模型,来同时学习节点表示和社区发现。

成为VIP会员查看完整内容
phd_slides.pdf
phd_thesis.pdf
0
36
小贴士
相关论文
Guneet S. Dhillon,Pratik Chaudhari,Avinash Ravichandran,Stefano Soatto
6+阅读 · 3月1日
Meng Qu,Jian Tang
3+阅读 · 2019年6月20日
CornerNet-Lite: Efficient Keypoint Based Object Detection
Hei Law,Yun Teng,Olga Russakovsky,Jia Deng
3+阅读 · 2019年4月18日
Zero-Shot Object Detection
Ankan Bansal,Karan Sikka,Gaurav Sharma,Rama Chellappa,Ajay Divakaran
6+阅读 · 2018年7月27日
William L. Hamilton,Rex Ying,Jure Leskovec
3+阅读 · 2018年4月10日
Jian Zhao,Jianshu Li,Yu Cheng,Li Zhou,Terence Sim,Shuicheng Yan,Jiashi Feng
3+阅读 · 2018年4月10日
Zhang-Wei Hong,Chen Yu-Ming,Shih-Yang Su,Tzu-Yun Shann,Yi-Hsiang Chang,Hsuan-Kung Yang,Brian Hsi-Lin Ho,Chih-Chieh Tu,Yueh-Chuan Chang,Tsu-Ching Hsiao,Hsin-Wei Hsiao,Sih-Pin Lai,Chun-Yi Lee
4+阅读 · 2018年3月18日
Guangyu Robert Yang,Igor Ganichev,Xiao-Jing Wang,Jonathon Shlens,David Sussillo
3+阅读 · 2018年3月16日
Mikyas T. Desta,Larry Chen,Tomasz Kornuta
5+阅读 · 2018年1月29日
Chris Ying,Katerina Fragkiadaki
8+阅读 · 2018年1月1日
Top