最新最权威《深度学习显著目标检测综述》论文代码数据发布,带你全面了解显著目标检测方法

2019 年 4 月 24 日 专知
最新最权威《深度学习显著目标检测综述》论文代码数据发布,带你全面了解显著目标检测方法

【导读】显著目标检测(Salient Object Detection,SOD)作为近年来的研究热点之一,受到了广泛关注,每年在计算机视觉三大会议(ICCV, CVPR, ECCV)上大量相关文章发表。这篇新出论文首次对基于深度学习技术的SOD进行了全面综述。起源人工智能研究院高级研究员王文冠博士等人首先从网络架构、监督级别等多个不同的角度对基于深度学习技术的显著性目标检测(deep SOD)模型进行了仔细的回顾和梳理。然后,总结了流行的SOD数据集和评估标准,对代表性的deep SOD模型进行了大规模评测,研究了不同输入图像属性下的deep SOD算法的性能,并进一步研究了deep SOD模型在对抗攻击下的鲁棒性和可移植性,以及输入扰动的影响,和现有SOD数据集的泛化性。最后,讨论了SOD领域存在的一些问题和挑战,并指出了今后可能的研究方向。综述中所有的相关数据、评测代码、以及37个SOD模型在6个数据集上的结果已发布在:

https://github.com/wenguanwang/SODsurvey。

题目:Salient Object Detection in the Deep Learning Era: An In-Depth Survey

作者:Wenguan Wang, QiuxiaLai, Huazhu Fu, Jianbing Shen, Haibin Ling

起源人工智能研究院(Inception Institute of Artificial Intelligence,IIAI)高级研究员 :王文冠

https://sites.google.com/site/wenguanwangwwg/),

香港中文大学在读博士生:赖秋霞,

起源人工智能研究院高级研究员:付华柱

起源人工智能研究院首席科学家、北京理工大学教授:沈建冰

天普大学教授:凌海滨


【摘要】图像显著目标检测(SOD)作为计算机视觉领域中的一个重要问题,近年来受到越来越多学者的关注。毫无疑问,显著性目标检测的最新进展主要由基于深度学习的解决方案(deep SOD)主导,这在数百篇已发表的论文中得到了很好的体现。为了加深对deepSOD模型的理解,本文从算法分类到未解决的开放问题等各个方面进行了全面的梳理。具体地,我们首先从网络架构、监督级别、学习范式和目标/实例级别检测等不同角度回顾了deep SOD算法。然后,我们总结了现有的常见SOD评估数据集和指标,同时在现存工作的基础上,对现有的代表性deep SOD模型进行了大规模评测,并对比较结果进行了详细的分析。此外,通过构造一个新的具有丰富属性标注的SOD数据集,我们研究了不同属性下deep SOD算法的性能。值得一提的是,我们首次在该领域分析了deep SOD模型在对抗攻击下的鲁棒性和可移植性。我们还研究了输入扰动的影响,以及现有SOD数据集的泛性和难易程度。最后,讨论了SOD领域存在的一些问题和挑战,并指出了今后可能的研究方向。文中总结的所有模型的显著性预测结果、以及新构建的带标注的数据集和用于评估的代码都已发布在

https://github.com/wenguanwang/SODsurvey。


参考链接:

https://arxiv.org/abs/1904.09146

代码链接:

https://github.com/wenguanwang/SODsurvey


 请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“显著性目标检测综述” 就可以获取最新论文的下载链接~ 


引言


显著目标检测(SOD)是为了突出图像中显著的目标区域。SOD不同于起源于认知和心理学研究领域的人眼注视点预测(Fixation Prediction),它更多地被有关领域中目标级别的应用(object-level application)所驱动。在计算机视觉中,SOD的主要应用包括图像理解[1]、[2]、图像描述生成(imagecaptioning)[3]-[5]、目标检测[6]、[7],无监督视频目标分割[8]、[9],语义分割[10]-[12],行人重识别[13]、[14]等。在计算机图形学中,SOD被广泛应用于图像渲染[15]、[16]、图像自动裁剪[17]、图像重定向[18]、[19]、视频摘要[20]、[21]等任务。机器人领域中的典型应用,如人机交互[22]、[23]和目标发现[24]、[25],也受益于SOD。

 

近年来,随着深度学习技术的复兴,显著目标检测(SOD)获得了极大发展,这得益于深度学习技术强大的表示学习方法。自2015年以来[26]-[28],基于深度学习的SOD(或称deep SOD)算法很快就显示出优于传统解决方案的性能,并一直占据各种测试排行榜的榜首。另一方面,学术界近几年已经有数百篇关于deep SOD的研究论文发表,有效地了解和总结当前SOD的技术水平变得非常重要。

 

在本文中,作者对深度学习时代的SOD技术进行了全面深入的综述。该综述旨在全面涵盖deep SOD和相关问题的各个方面,从算法分类到未解决的开放问题。除了对现有的SOD方法和数据集进行分类研究外,还研究了一些重要的、但在很大程度上尚未得到充分研究的问题,如SOD中不同图像属性的影响,以及SOD模型在对抗攻击下的鲁棒性和可移植性。为了对这些全新问题展开研究,作者构建了一个新的SOD数据集并进行了详细标注。文中总结的所有显著性算法预测结果、以及新构建的带标注的数据集和用于评估的代码都已发布在https://github.com/wenguanwang/SODsurvey上。


图1 SOD的简要发展年表。最早的SOD模型可以追溯到Liu et al. [29]和Achanta et al. [30]。2015年出现了基于深度学习技术的SOD模型。更详细的描述,请参见原文。


表1 其它显著性检测领域相关综述工作的总结。


在本文中,作者的贡献总结如下:

1.   从多个角度对deep SOD模型进行系统回顾。根据网络架构、监督级别、学习范式等对现有的deep SOD模型进行分类和总结。所提出的分类旨在帮助研究人员更深入地了解SOD在深度学习时代的关键特性。

2.   基于图像属性特征的deep SOD模型性能评测。并提供了考虑对象类别、场景类别和挑战因素的带标注的属性特征。在此基础上,对代表性的SOD模型的性能进行了评估,并讨论了这些属性特征对不同算法的影响以及深度学习技术带来的改进。

3.   关于输入扰动影响的讨论。研究了不同类型的图像扰动对代表性的SOD算法的影响。这项研究有望为频繁包含噪音的实际应用提供有用的指导。

4.   首次对SOD模型进行对抗攻击分析。在诸如场景识别这样的典型计算机视觉任务中,神经网络被证明非常容易受到视觉上难以察觉的对抗攻击,然而对抗攻击如何影响deep SOD模型仍未被研究。文章对这一问题的进行了研究,这可以作为未来研究deep SOD模型的鲁棒性和可移植性的基准。

5.   跨数据集综合研究。SOD数据集的采集往往带有一定的偏差[41],因此,采用代表性的基准模型对现有的SOD数据集进行跨数据集泛化性的研究。

对未决问题和未来方向的概述。文章最后深入研究了模型设计、数据集收集、SOD与其它有关研究领域的关系等几个重要的基本问题,为今后的研究指明了方向。


表2 对代表性的deep SOD模型的总结。


图2  Deep SOD模型的典型网络结构。(a)基于MLP方法; (b)-(f)基于FCN的方法,主要使用(b) single-stream、(c) multi-stream、(d) side-out fusion、(e) bottom-up/top-down和(f) branch网络架构。(g)基于混合网络的方法。


表3 对代表性的SOD数据集的总结。



表4 在6个著名数据集上对29个典型的deep SOD模型和3个性能最好的传统SOD方法的评估结果。


图4 从6个SOD数据集中随机选取图像作为混合基准的样本图像。显著的区域被标定并列出了相应的属性。有关更详细的描述,请参见原文5.2节。

表9对抗攻击的结果,参见原文5.4节

表10 针对现有SOD数据集泛化性和难易程度的研究,参见原文5.5节


结论


本文是首次以深度学习技术为核心对SOD进行的全面综述作者首先从网络架构、监督级别等多个不同的角度对基于深度学习的SOD模型进行仔细的回顾和梳理。然后,总结了流行的SOD数据集和评估标准,并提供了覆盖主要SOD方法的全面性能评估。

 

文中总结的所有显著性算法预测结果图、构建的数据集及标注,以及用于评估的代码已发布在 https://github.com/wenguanwang/。由于深度学习技术的惊人发展,SOD取得了显著的进步,但仍有很大的改进空间。我们期望这篇综述能够对SOD领域的现状提供深度全面的总结,更重要的是,可以为SOD领域未来的探索提供有益见解。


-END-

专 · 知

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询!

请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成!530+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

登录查看更多
65

相关内容

超氧化物歧化酶(Superoxide dismutase,SOD)是生物体系中抗氧化酶系的重要组成成员,广泛分布在微生物、植物和动物体内

目标检测作为机器视觉中重要任务之一,是人工智能体系中一个具有重要研究价值的技术分支。对于卷积神经网络框架、anchor-based模型和anchor-free模型三个主流的目标检测模型进行梳理。首先,综述了主流卷积神经网络框架的网络结构、优缺点以及相关的改进方法;其次从one-stage和two-stage两个分支对anchor-based类模型进行深入分析,总结了不同目标检测方法的研究进展;从早期探索、关键点和密集预测三部分分析anchor-free类模型。最后对该领域的未来发展趋势进行了思考与展望。

成为VIP会员查看完整内容
0
27

【简介】自然语言处理(NLP)能够帮助智能型机器更好地理解人类的语言,实现基于语言的人机交流。目前随着计算能力的发展和大量语言数据的出现,推动了使用数据驱动方法自动进行语义分析的需求。由于深度学习方法在计算机视觉、自动语音识别,特别是NLP等领域取得了显著的进步,数据驱动策略的应用已经非常的普遍。本综述对NLP领域中所应用的深度学习进行了分类和讨论。它涵盖了NLP的核心任务和应用领域,并对深度学习方法如何推进这些领域的发展进行了细致的描述。最后我们进一步分析和比较了不同的方法和目前最先进的模型。

原文连接:https://arxiv.org/abs/2003.01200

介绍

自然语言处理(NLP)是计算机科学的一个分支,能够为自然语言和计算机之间提高沟通的桥梁。它帮助机器理解、处理和分析人类语言。NLP通过深入地理解数据的上下文,使得数据变得更有意义,这反过来又促进了文本分析和数据挖掘。NLP通过人类的通信结构和通信模式来实现这一点。这篇综述涵盖了深度学习在NLP领域中所扮演的新角色以及各种应用。我们的研究主要集中在架构上,很少讨论具体的应用程序。另一方面,本文描述了将深度学习应用于NLP问题中时所面临的挑战、机遇以及效果评估方式。

章节目录

section 2: 在理论层面介绍了NLP和人工智能,并将深度学习视为解决现实问题的一种方法。

section 3:讨论理解NLP所必需的基本概念,包括各种表示法、模型框架和机器学习中的示例性问题。

section 4:总结了应用在NLP领域中的基准数据集。

section 5:重点介绍一些已经被证明在NLP任务中有显著效果的深度学习方法。

section 6:进行总结,同时解决了一些开放的问题和有希望改善的领域。

成为VIP会员查看完整内容
0
38

【导读】无人机计算机视觉相关检测和跟踪( Vision Meets Drones)作为近年来的研究热点之一,受到了广泛关注,这两年在各大会议上都有相关文章发表,并且也有一些竞赛。当前,无人机收集的视觉数据的自动理解变得非常困难,并且其用途广泛,天津大学的朱鹏飞博士、京东数字科技文珑银博士和纽约州立大学奥尔巴尼分校的独大为博士等新出的这篇论文对近几年基于无人机视觉检测和跟踪方法和数据集进行了全面综述,总结了当前面临的挑战,提出了未来的发展方向和改进方向。作者也提供了一个大规模的无人机捕获数据集VisDrone,其中包括四个track,即(1)图像目标检测,(2)视频目标检测,(3)单目标跟踪,(4)多目标跟踪。对每一个track进行了详细得说明,并强调VisDrone是迄今为止发布的最大的此类数据集,可以在无人机平台上对视觉分析算法进行广泛的评估和研究。

https://github.com/VisDrone/VisDrone-Dataset

【摘要】配备了摄像头的无人机,或称通用无人机,已经被快速部署到广泛的应用领域,包括农业、航空摄影、快速递送和监控。因此,对无人机收集的视觉数据的自动理解变得非常困难,这使得计算机视觉和无人机之间的联系越来越紧密。为了促进和跟踪目标检测和跟踪算法的发展,我们与欧洲计算机视觉大会(ECCV) 2018和IEEE计算机视觉国际会议(ICCV) 2019联合举办了两个挑战研讨会,吸引了全世界100多支团队。我们提供了一个大规模的无人机捕获数据集VisDrone,其中包括四个track,即(1)图像目标检测,(2)视频目标检测,(3)单目标跟踪,(4)多目标跟踪。本文首先对目标检测和跟踪数据集和基准进行了全面的回顾,并讨论了收集具有完全手动标注的大规模基于无人机的目标检测和跟踪数据集的挑战。之后,我们描述了VisDrone数据集,该数据集是从中国北方到南方的14个不同城市的各个城市/郊区捕获的。VisDrone是迄今为止发布的最大的此类数据集,它可以在无人机平台上对视觉分析算法进行广泛的评估和研究。我们详细分析了无人机大尺度目标检测与跟踪领域的现状,总结了当前面临的挑战,提出了未来的发展方向和改进方向。我们预计这一基准将极大地促进无人机平台视频分析的研发。可以从以下网站下载所有数据集和实验结果:https://github.com/VisDrone/VisDrone-Dataset。

参考链接:

https://arxiv.org/abs/2001.06303v1

引言

近年来,计算机视觉因其在交通监控、智慧城市、人机交互等领域的广泛应用而受到越来越多的关注。作为计算机视觉的两个基本问题,目标检测和跟踪一直受到广泛的关注。在导致计算机视觉技术快速发展的众多因素和努力中,值得注意的贡献应归功于众多基准和挑战的发明或组织, 如目标检测的Caltech [1], KITTI [2], ImageNet [3], 和MS COCO [4],目标跟踪的OTB [5], VOT [6], MOTChallenge [7], UA-DETRAC [8], 和LaSOT [9]。

配备摄像头的无人机已经被快速部署到广泛的领域,包括农业、航空摄影、快速投递和监视。因此,对从这些无人机收集的视觉数据的自动理解变得非常困难,这将计算机视觉越来越紧密地带入了无人机。尽管一般的计算机视觉算法(如检测和跟踪)取得了很大的进步,但这些算法通常不是处理无人机捕获的序列或图像的最佳算法。这是由于各种各样的挑战,如较大的视点变化和规模。因此,为无人机捕获的视觉数据开发和评估新的视觉算法至关重要。然而,正如[10]和[11]所指出的,由于缺乏公开的大规模基准或数据集,对这一目标的研究受到严重限制。最近,[10]、[11]和[12]致力于构建无人机捕获的数据集,这些数据集主要用于目标检测或跟踪。由于数据收集和标注方面的困难,这些数据集的大小和涉及的场景仍然有限。对现有或新开发的算法进行彻底的评估仍然是一个开放的问题。为了进一步推进无人机平台视频分析研究,需要一个更通用、更全面的基准。

因此,作者与欧洲计算机视觉大会(ECCV) 2018和IEEE国际计算机视觉大会(ICCV) 2019联合举办了两次挑战研讨会,吸引了全世界100多个研究团队。挑战集中在目标检测和跟踪的四个track。

  • 图像目标检测跟踪(DET)。

  • 视频目标检测跟踪(VID)。

  • 单目标跟踪(SOT)。

  • 多目标跟踪(MOT)。

值得注意的是,在研讨会挑战中,本文提供了一个大型数据集,包含179个视频中263个视频片段; 10个视频中的264帧画面; 209张静态图像。数据由不同的无人机相机记录,包括位置(取自中国14个不同的城市)、环境(城市和农村地区)、物体(如行人、车辆和自行车)和密度(稀疏和拥挤的场景)。作者选择了10类在无人机应用中最受关注的目标,比如行人和汽车。作者共仔细标注了来自这些类别的超过250万个目标实例的边界框。此外,还提供了一些重要的属性,包括场景的可见性、目标类别和遮挡,以提高数据使用率。表1列出了所提供的无人机数据集与其他相关基准数据集在目标检测和跟踪方面的详细比较。

在这篇论文中,作者重点关注了2018年和2019年的VisDrone挑战,以及挑战的方法、结果和评估方案,希望这一挑战能在很大程度上促进相关领域的研究和发展。

成为VIP会员查看完整内容
0
11

论文题目: Salient Object Detection in the Deep Learning Era: An In-Depth Survey

论文摘要: 作为计算机视觉中的一个重要问题,图像中的显著目标检测(SOD)近年来得到了越来越多的研究。最近在超氧化物歧化酶方面的进展主要是基于深度学习的解决方案(称为深超氧化物歧化酶)。为了便于深入理解深层SODs,本文提供了一个全面的综述,涵盖了从算法分类到未解决的开放问题的各个方面。特别是,我们首先从网络结构、监控级别、学习范式和对象/实例级别检测等不同角度对深度超氧化物歧化酶算法进行了综述。在此基础上,总结了现有的SOD评价数据集和指标体系。然后,在前人工作的基础上,认真编写了一个完整的SOD方法的基准测试结果,并对对比结果进行了详细的分析。另外,通过构造一个新的具有丰富属性标注的SOD数据集,研究了不同属性下的SOD算法的性能,这在以前的研究中是很少的。我们首次在现场进一步分析了deep-SOD模型的鲁棒性和可转移性。我们还研究了输入扰动的影响,以及现有SOD数据集的通用性和硬度。最后,讨论了超氧化物歧化酶存在的问题和挑战,并指出了未来可能的研究方向。

成为VIP会员查看完整内容
Salient Object Detection in the Deep Learning Era An In-Depth Survey.pdf
0
20

密歇根大学Zhengxia Zou博士等人近期发布了《Object Detection in 20 Years: A Survey》,这篇综述论文对近四分之一世纪(20世纪90年代至2019年)的400余篇论文进行了广泛的回顾,涵盖了许多主题,包括历史上的里程碑检测器、检测数据集、度量、检测系统的基本构建模块、加速技术以及最新的检测方法。本文还综述了行人检测、人脸检测、文本检测等重要的检测应用,并对其面临的挑战以及近年来的技术进步进行了深入分析。

目标检测作为计算机视觉中最基本、最具挑战性的问题之一,近年来受到了广泛的关注。它在过去二十年的发展可以说是计算机视觉历史的缩影。如果我们把今天的目标检测看作是深度学习力量下的一种技术美学,那么让时光倒流20年,我们将见证冷兵器时代的智慧。本文从目标检测技术发展的角度,对近四分之一世纪(20世纪90年代至2019年)的400余篇论文进行了广泛的回顾。本文涵盖了许多主题,包括历史上的里程碑检测器、检测数据集、度量、检测系统的基本构建模块、加速技术以及最新的检测方法。本文还综述了行人检测、人脸检测、文本检测等重要的检测应用,并对其面临的挑战以及近年来的技术进步进行了深入分析。

成为VIP会员查看完整内容
0
50

多目标跟踪(MOT)的问题在于在一个序列中跟踪不同目标的轨迹,通常是视频。近年来,随着深度学习的兴起,为这一问题提供解决方案的算法受益于深度模型的表示能力。本文对利用深度学习模型解决单摄像机视频MOT任务的作品进行了全面的综述。提出了MOT算法的四个主要步骤,并对深度学习在每个阶段的应用进行了深入的回顾。本文还对三种MOTChallenge数据集上的现有工作进行了完整的实验比较,确定了一些最优的方法之间的相似性,并提出了一些可能的未来研究方向。

成为VIP会员查看完整内容
0
35
小贴士
相关论文
Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark
Ke Li,Gang Wan,Gong Cheng,Liqiu Meng,Junwei Han
10+阅读 · 2019年9月22日
Deep Learning for Energy Markets
Michael Polson,Vadim Sokolov
3+阅读 · 2019年4月10日
Tao Kong,Fuchun Sun,Huaping Liu,Yuning Jiang,Jianbo Shi
5+阅读 · 2019年4月8日
Jiangmiao Pang,Kai Chen,Jianping Shi,Huajun Feng,Wanli Ouyang,Dahua Lin
5+阅读 · 2019年4月4日
Chengju Zhou,Meiqing Wu,Siew-Kei Lam
6+阅读 · 2019年3月4日
Deep Learning for Generic Object Detection: A Survey
Li Liu,Wanli Ouyang,Xiaogang Wang,Paul Fieguth,Jie Chen,Xinwang Liu,Matti Pietikäinen
6+阅读 · 2018年9月6日
Antoine J. -P. Tixier
8+阅读 · 2018年8月30日
Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages
Yuxi Li,Jiuwei Li,Weiyao Lin,Jianguo Li
5+阅读 · 2018年7月29日
Kaiming He,Georgia Gkioxari,Piotr Dollár,Ross Girshick
6+阅读 · 2018年1月24日
Alexandre Attia,Sharone Dayan
3+阅读 · 2018年1月19日
Top