摘要:场景分割问题是计算机视觉领域基本而重要的问题,具有广泛的应用价值。 场景分割需要解决的科学问题是如何对场景中的要素进行精确分割。其主要难 点在于场景图像的结构十分复杂,包含多种类别和多种尺度的要素,且这些要素 之间存在着丰富的空间关系。同时在实际应用中,在保证场景分割精度的条件下 也需要综合考虑计算复杂度和速度。因此,场景分割问题的主要难点和挑战可概 括为三个方面:1)尺度变换多样,2)空间关系复杂,3)时间复杂度高。近年来, 基于深度学习,尤其是卷积神经网络的方法在场景分割领域取得了巨大的进展, 但基于深度学习的场景分割方法还存在着一定的局限性。本课题对基于深度学 习的场景分割方法进行研究,针对上述三个难点和挑战,取得了以下成果:

  1. 基于尺度自适应卷积的场景分割方法 目前基于深度学习的场景分割方法主要利用标准卷积,其感受野大小固定。 而场景图像中要素的尺度变化多样,导致大尺度要素分割结果不连续,小尺度要 素与背景混淆而遗漏的问题。针对该问题,我们提出尺度自适应卷积方法,对场 景图像中不同尺度的要素自适应改变卷积感受野大小。该方法可以缓解由于标 准卷积感受野固定引起的大尺度要素分割结果不连续和小尺度要素被遗漏的问 题。尺度自适应卷积的整个过程是可导的,其卷积参数可以利用一个端到端的结 构从数据中自动和隐式的学习。我们在 Cityscapes 和 ADE20K 两个数据集上验 证了尺度自适应卷积的有效性。

  2. 基于全局和局部修正的场景分割方法 场景图像中具有复杂的空间关系和丰富的上下文信息,对场景中要素的识 别具有极大的帮助作用。我们分别利用全局上下文信息和局部上下文信息对给 定的场景分割结果进行修正。我们首先提出全局残差修正网络,通过捕捉图像中 的全局上下文信息进行分割结果的修正。经过全局残差修正网络修正之后,原 始分割结果中不一致、不连续的区域将被修正。其次,我们提出局部边界修正网 络,通过捕捉图像中的局部上下文信息,对给定分割结果的边界和细节进行修 正。经过局部边界修正网络修正之后,原始分割结果中的分割边界将更加精确和 平滑。这两种修正网络均可单独使用,也可以级联在给定的分割网络之后形成一 个统一框架,以共同提高修正结果的精度。在 Cityscapes 和 ADE20K 两个数据 集上的结果显示这两种修正网络可以有效提高给定分割结果的精度。

  3. 基于高分辨率特征图重建的场景分割加速方法 现有大多数场景分割方法着眼于提高模型的分割精度,因此使用较深的神 经网络和较高分辨率的特征图,分割精度较高但速度较慢。为解决由于较大尺寸 输入图像和高分辨率特征图导致的场景分割速度较慢的问题,我们提出高分辨 率特征图重建方法对任意给定的场景分割框架进行加速。该方法利用降采样输 入图像的特征图对原始大小输入图像的特征图进行重建。利用降采样输入图像 进行特征学习的速度较快,而重建原始大小输入图像的特征图可以缓解使用降 采样输入图像导致的细节丢失和精度下降问题。我们在两个公开数据集上验证 了高分辨率特征图重建方法的有效性,当使用 1/2 降采样率时,可以在分割精度 损失忽略不计的情况下得到约 3 倍的加速比。

关键词:场景分割,深度学习,尺度自适应卷积,全局和局部修正网络,高分辨 率特征图重建

作者简介:张蕊,2009年9月-2013 年7月,在北京航空航天大学数学与系统科学学院获理学学士学位。2013年9月-2019年7月,在中国科学院计算技术研究所攻读博士学位,博士生导师是李锦涛。

2+
0+

相关内容

摘要:深度学习是近年来应用最广泛的心脏图像分割方法。在这篇文章中,我们回顾了超过100篇使用深度学习的心脏图像分割论文,这些论文涵盖了常见的成像方式,包括磁共振成像(MRI)、计算机断层扫描(CT)和超声(US)以及感兴趣的主要解剖结构(心室、心房和血管)。此外,公开可用的心脏图像数据集和代码库的摘要也包括在内,为鼓励重复性研究提供了基础。最后,我们讨论了当前基于深度学习的方法的挑战和局限性(缺乏标签、不同领域的模型可泛化性、可解释性),并提出了未来研究的潜在方向。

0+
0+

论文摘要:随着数码相机、智能手机等数码设备的普及,用户可以随时随地拍摄各种感兴趣的场景。然而,在成像过程的曝光时间内存在难以避免的相机抖动、物体运动、场景深度变化等原因,使拍摄的图片和视频中往往存在一些模糊现象,影响对图片内容的理解。因此对这些低质量图片的恢复将有助于人们更好的理解图像内容。本文拟对模糊图片和视频的还原进行研究,分别利用不同的结构先验知识对模糊图像和视频内容进行恢复。本文的主要研究内容和贡献如下:

  1. 针对场景文字图片中文字笔画宽度不同的特性,提出了一种基于文字特有多尺度字典的场景文字去模糊方法。我们统计了场景文字图像中笔画宽度的分布规律,通过该统计规律分别训练得到不同尺度的场景文字字典。然后利用该文字特有多尺度字典对文字图片中的文字区域建模先验知识。本文提出的文字特有多尺度字典可以有效处理场景中不同笔画宽度的场景文字。

  2. 根据图像中相似图像块之间的低秩结构特性,本文提出了一种基于低秩先验的图像去模糊方法。我们观察到在模糊图像中使用低秩约束可以在一定程度上减少图像的模糊效应,同时保留图像的主要结构信息,而这一现象在图像的梯度域上更加明显。基于此本文提出基于低秩近似的图像去模糊方法,分别在图像的灰度域和梯度域增加低秩约束,保留图像的主要边缘结构达到去模糊的效果。

  3. 由于视频中存在复杂的相机抖动,物体运动和场景深度变化等多种原因,传统的基于均匀模糊核或全局非均匀模糊核的视频去模糊方法不能满足真实视频的特性。基于此,我们提出了一种基于像素级非线性模糊核的视频去模糊方法。通过对视频双向光流构造二次方程,来近似求解每个像素的非线性模糊核,可以反映出视频中更真实的模糊核。此外,为了提高光流的准确性,尤其是运动物体的边缘信息,我们将语义分割引入到视频去模糊中,通过不同物体信息对光流进行不同的建模,得到更好的光流估计结果从而进一步提高视频 去模糊的效果。

关键词: 图像去模糊,文字图像去模糊,视频去模糊,稀疏表达,低秩表示,像素级非线性模糊核,光流,语义分割

作者介绍:他目前是天津大学计算机科学与技术学院和美国加州大学默塞德分校电子工程与计算机科学联合培养的博士研究生,他的博士生导师是操晓春,他的研究兴趣包括图像去模糊,图像/视频分析和增强,以及相关的视觉问题,相关研究成果发表在权威期刊和会议上,如IEEE TIP, CVPR, ECCV等。

1+
0+

摘要:近年来,在开发更准确、高效的医学和自然图像分割机器学习算法方面取得了重大进展。在这篇综述文章中,我们强调了机器学习算法在医学成像领域有效和准确分割中的重要作用。我们特别关注几个关键的研究涉及到应用机器学习方法在生物医学图像分割。我们回顾了经典的机器学习算法,如马尔可夫随机场、k均值聚类、随机森林等。尽管与深度学习技术相比,这种经典的学习模型往往精度较低,但它们通常更具有样本效率,结构也更简单。我们还回顾了不同的深度学习结构,如人工神经网络(ANNs)、卷积神经网络(CNNs)和递归神经网络(RNNs),并给出了这些学习模型在过去三年中获得的分割结果。我们强调每种机器学习范式的成功和局限性。此外,我们还讨论了与不同机器学习模型训练相关的几个挑战,并提出了一些解决这些挑战的启发方法。

4+
0+

报告主题: 图像的非监督增强匹配

报告摘要: 当前在使用深度神经网络识别图像时,需要标注大量图像,而这需要耗费大量的人力和时间。为此我们尝试解决下面问题:给定一些物体的标准图像,对大量未标注的图像实现自动的图像标注。我们以文字识别和交通标示识别问题为例,设计了的新的方法。实验结果表明我们较好的完成了这些图像的自动标注。

邀请嘉宾: 清华大学张长水教授

2+
0+

摘要: 雨水会产生不良的视觉伪影,从而严重影响可视性,并导致许多计算机视觉系统(例如自动驾驶汽车,监视系统,自动驾驶无人机等)崩溃。雨水会以雨滴,雨水积聚/遮盖效果(在视觉上类似于雾或雾)以及附着在相机镜头或汽车挡风玻璃上的雨滴的形式引入人工制品。在本教程中,我们打算讨论如何恢复由于这些雨水伪影及其复合问题而导致的降级背景信息,从而增强场景的可见性。为了处理雨水条纹和雨水积聚,我们将简要讨论传统的非深度学习方法的演变,并将更多地关注于最新的深度学习方法的工作原理。目前,大多数基于深度学习的方法都是在监督下进行训练的,并提供了真实情况数据。但是,获得真实的地面真实数据非常困难。因此,现有方法依赖于呈现的合成数据。这种方法的问题在于,在降级复杂性,背景变化,光照变化等方面,合成数据与真实数据存在显着差异。因此,为了能够正确解决降雨条纹和降雨积聚的问题,我们需要超越综合训练。除了雨水条和雨水积聚之外,附着在玻璃窗或相机镜头上的雨滴还会严重妨碍背景场景的可见性并严重降低图像质量。已经提出了一些非深度学习方法来处理附着的雨滴,但是结果不足。这个问题是棘手的,因为首先没有给出被雨滴遮挡的区域。第二,关于被遮挡区域的背景场景的信息在很大程度上被完全丢失。为了解决该问题,现有技术方法使用对抗训练来应用细心的生成网络。主要思想是将视觉注意力注入到生成网络和判别网络中。在训练期间,视觉注意力会了解雨滴区域及其周围环境。因此,通过注入此信息,生成网络将更加关注雨滴区域和周围的结构,而判别网络将能够评估恢复区域的局部一致性。有关被遮挡区域背景场景的信息在很大程度上已完全丢失。为了解决该问题,现有技术方法使用对抗训练来应用细心的生成网络。主要思想是将视觉注意力注入到生成网络和判别网络中。在训练期间,视觉注意力会了解雨滴区域及其周围环境。因此,通过注入此信息,生成网络将更加关注雨滴区域和周围的结构,而判别网络将能够评估恢复区域的局部一致性。有关被遮挡区域背景场景的信息在很大程度上已完全丢失。为了解决该问题,现有技术方法使用对抗训练来应用细心的生成网络。主要思想是将视觉注意力注入到生成网络和判别网络中。在训练期间,视觉注意力会了解雨滴区域及其周围环境。因此,通过注入此信息,生成网络将更加关注雨滴区域和周围的结构,而判别网络将能够评估恢复区域的局部一致性。现有技术方法利用对抗训练来应用细心的生成网络。主要思想是将视觉注意力注入到生成网络和判别网络中。在训练期间,视觉注意力会了解雨滴区域及其周围环境。因此,通过注入此信息,生成网络将更加关注雨滴区域和周围的结构,而判别网络将能够评估恢复区域的局部一致性。现有技术方法利用对抗训练来应用细心的生成网络。主要思想是将视觉注意力注入到生成网络和判别网络中。在训练期间,视觉注意力会了解雨滴区域及其周围环境。因此,通过注入此信息,生成网络将更加关注雨滴区域和周围的结构,而判别网络将能够评估恢复区域的局部一致性。

个人简介: Robby T. Tan是新加坡国立大学副教授,也是国大电气与计算机工程系的副教授。来新加坡之前,他曾是荷兰乌得勒支大学的助理教授,伦敦帝国学院的研究助理以及NICTA /澳大利亚国立大学的研究科学家。他在日本东京大学获得了计算机科学博士学位。他与ACCV 2014一起组织了有关图像恢复和增强的新兴主题(IREw)研讨会,并与CVPR 2019一起组织了“全季节视野:恶劣天气和夜间”研讨会。他曾担任ACCV 2010和ACCV 2018区域主席。他还担任ECCV 2016的出版物主席,并定期担任CVPR / ICCV / ECCV的程序委员会成员。他在CVPR 2008中进行的除雾工作被认为是单图像除雾文学的开创性工作。他的研究重点在恶劣的天气/夜间和基于物理的视觉领域。

FIRE_2019_10_tutorial_RobbyTTan.pdf
3+
0+

异常检测是一个在各个研究领域和应用领域内得到广泛研究的重要问题。本研究的目的有两个方面:首先,我们对基于深度学习的异常检测的研究方法进行了系统全面的综述。此外,我们还回顾了这些方法对不同应用领域异常的应用,并评估了它们的有效性。我们根据所采用的基本假设和方法,将最先进的研究技术分为不同的类别。在每一类中,我们概述了基本的异常检测技术,以及它的变体,并给出了关键的假设,以区分正常行为和异常行为。对于我们介绍的每一类技术,我们还介绍了它们的优点和局限性,并讨论了这些技术在实际应用领域中的计算复杂性。最后,我们概述了研究中的未决问题和采用这些技术时所面临的挑战。

20190114-DEEP LEARNING FOR ANOMALY DETECTION A SURVEY.pdf
8+
0+
Top