目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

目标检测(物体检测, Object Detection) 专知荟萃

入门学习

  1. 图像目标检测(Object Detection)原理与实现 (1-6)
  2. 目标检测从入门到精通(1-3)
  3. 深度学习500问之目标检测
  4. 目标检测(Object Detection)入门

综述

  1. 地平线黄李超开讲:深度学习和物体检测!

  2. 对话CVPR2016:目标检测新进展:

  3. 基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN:

  4. 基于深度学习的目标检测研究进展

  5. 讲堂干货No.1|山世光-基于深度学习的目标检测技术进展与展望

  6. 基于特征共享的高效物体检测 Faster R-CNN和ResNet的作者任少卿 博士毕业论文 中文

  7. R-CNN:论文笔记

  8. Fast-RCNN:

  9. Faster-RCNN:

  10. FPN:

  11. R-FCN:

  12. SSD:

  13. YOLO:

  14. DenseBox:余凯特邀报告:基于密集预测图的物体检测技术造就全球领先的ADAS系统

  15. PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection - [http://www.cnblogs.com/xueyuxiaolang/p/5959442.html]

  16. 深度学习论文笔记:DSSD - [https://jacobkong.github.io/blog/2938514597/]

  17. DSOD

  18. Focal Loss:

  19. Soft-NMS:

  20. OHEM:

  21. Mask-RCNN 2017:

  22. 目标检测之比较

  23. 视觉目标检测和识别之过去,现在及可能

  24. CVPR2019目标检测方法进展综述

  25. 基于深度学习的「目标检测」算法综述

  26. 目标检测综述

  27. 深度学习目标检测网络汇总对比

  28. 从锚点到关键点,最新的目标检测方法发展到哪了

  29. 从RCNN到SSD,这应该是最全的一份目标检测算法盘点

  30. 目标检测中的不平衡问题:综述

  31. 深度学习中用于对象检测的最新进展

  32. 基于深度学习的对象检测概述

  33. 目标检测20年:综述

  1. 深度卷积神经网络时代目标检测的最新进展
  2. 用于通用对象检测的深度学习:综述

进阶文章

  1. Deep Neural Networks for Object Detection (基于DNN的对象检测)NIPS2013:

  2. R-CNN Rich feature hierarchies for accurate object detection and semantic segmentation:

  3. Fast R-CNN :

  4. Faster R-CNN Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks:

  5. Mask R-CNN

  6. Light-Head R-CNN

  7. Cascade R-CNN

  8. Scalable Object Detection using Deep Neural Networks

  9. Scalable, High-Quality Object Detection

  10. SPP-Net Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

  11. DeepID-Net DeepID-Net: Deformable Deep Convolutional Neural Networks for Object Detection

  12. Object Detectors Emerge in Deep Scene CNNs

  13. segDeepM: Exploiting Segmentation and Context in Deep Neural Networks for Object Detection

  14. Object Detection Networks on Convolutional Feature Maps

  15. Improving Object Detection with Deep Convolutional Networks via Bayesian Optimization and Structured Prediction

  16. DeepBox: Learning Objectness with Convolutional Networks

  17. Object detection via a multi-region & semantic segmentation-aware CNN model

  18. You Only Look Once: Unified, Real-Time Object Detection

  19. YOLOv2 YOLO9000: Better, Faster, Stronger

  20. YOLOv3

  21. YOLT

  22. AttentionNet: Aggregating Weak Directions for Accurate Object Detection

  23. DenseBox: Unifying Landmark Localization with End to End Object Detection

  24. SSD: Single Shot MultiBox Detector

  25. DSSD : Deconvolutional Single Shot Detector

  26. FSSD

  27. ESSD

  28. MDSSD

  29. Pelee

  30. Fire SSD

  31. G-CNN: an Iterative Grid Based Object Detector

  32. HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection

  33. A MultiPath Network for Object Detection

  34. R-FCN: Object Detection via Region-based Fully Convolutional Networks

  35. A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

  36. PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection

  37. Feature Pyramid Networks for Object Detection

  38. Learning Chained Deep Features and Classifiers for Cascade in Object Detection

  39. DSOD: Learning Deeply Supervised Object Detectors from Scratch

  40. Focal Loss for Dense Object Detection ICCV 2017 Best student paper award. Facebook AI Research

  41. MegDet

  42. Mask-RCNN 2017 ICCV 2017 Best paper award. Facebook AI Research

  43. RefineNet

  44. DetNet

  45. SSOD

  46. CornerNet

  47. M2Det

  48. 3D Object Detection

  49. ZSD(Zero-Shot Object Detection)

  50. OSD(One-Shot object Detection)

  51. Weakly Supervised Object Detection

  52. Softer-NMS

  53. NAS-FPN,可实现比Mask-RCNN、FPN、SSD更快更好的目标检测

  54. 多方向目标检测:水平边界框上的滑动顶点

  55. SM-NAS:结构到模块的神经体系结构搜索以进行目标检测

  56. 基于PSNet和边框回归的弱监督目标检测(WSOD)

  57. 带有可见IoU和Box Sign预测器的遮挡性行人检测

  58. CSPNet:可以增强CNN学习能力的新型Backbone

  59. ReBiF:残差双融合特征金字塔网络,用于较精确的Single-shot目标检测

  60. 目标检测的性能上界讨论

  61. DIoU Loss:更快更好地学习边界框回归

  62. CoAE:用于One-Shot目标检测的共同注意和共同激励

  63. SAPD:Soft Anchor-Point目标检测

  64. MMOD:基于混合模型的目标检测边界框密度估计

  65. IENet:方向性航空目标检测的One Stage Anchor Free检测器

  66. MnasFPN:用于移动设备上目标检测的延迟感知的金字塔体系结构

  67. IPG-Net:用于目标检测的图像金字塔引导网络

  68. MAL:用于目标检测的多Anchor学习

  69. ATSS:缩小Anchor-free和Anchor-based的性能差距:通过自适应训练样本选择

  70. Strong-Weak Distribution Alignment for Adaptive Object Detection

  71. PartNet: A Recursive Part Decomposition Network for Fine-grained and Hierarchical Shape Segmentation

  72. Deep HoughVoting for 3D Object Detection in Point Clouds

  73. Simultaneous multi-view instance detection with learned geometric soft-constraints

  74. Cap2Det: Learning to Amplify Weak Caption Supervision for Object Detection

  75. Towards Adversarially Robust Object Detection

  76. Multi-adversarial Faster-RCNN for Unrestricted Object Detection

  77. Selectivity or Invariance: Boundary-aware Salient Object Detection

  78. Joint Monocular 3D Detection and Tracking

  79. GA-DAN: Geometry-Aware Domain Adaptation Network for Scene Text Detection and Recognition

  80. ThunderNet: Towards Real-time Generic Object Detection

  81. MemorizingNormality to Detect Anomaly: Memory-augmented Deep Autoencoder (MemAE) forUnsupervised Anomaly Detection

Tutorial

  1. CVPR'17 Tutorial Deep Learning for Objects and Scenes by Kaiming He Ross Girshick
  2. ICCV 2015 Tools for Efficient Object Detection
  3. Object Detection
  4. Image Recognition and Object Detection : Part 1
  5. R-CNN for Object Detection
  6. 史上最详尽的yolo教程
  7. Keras-RetinaNet训练自己的数据详细教程

视频教程

  1. cs231 第11讲 Detection and Segmentation
  2. Deep Learning for Instance-level Object Understanding by Ross Girshick.
  3. (全)深度学习之目标检测常用算法原理+实践精讲
  4. 最全的目标检测原理讲解
  5. 深度学习之分类与目标检测
  6. 2019最新基于深度学习的目标检测原理及实践教程
  7. Tensorflow Object Detection Tutorial

代码

  1. R-CNN

  2. Fast R-CNN:

  3. Faster R-CNN

  4. SPP-Net

  5. YOLO

  6. YOLOv2

  7. YOLOv3

  8. SSD

  9. Recurrent Scale Approximation for Object Detection in CNN

  10. Mask-RCNN 2017

  11. Light-Head R-CNN

  12. Cascade R-CNN

  13. YOLT

  14. DSSD

  15. Pelee

  16. R-FCN

  17. FPN

  18. DSOD

  19. RetinaNet

  20. MegDet

  21. RefineNet

  22. DetNet

  23. CornerNet

  24. M2Det

  25. 3D Object Detection

  26. Softer-NMS

领域专家

  1. Ross Girshick (rbg 大神)
    • [http://www.rossgirshick.info/]
    • Ross Girshick是Facebook AI Research(FAIR)的研究科学家,致力于计算机视觉和机器学习。于2012年在Pedro Felzenszwalb的指导下获得了芝加哥大学的计算机科学博士学位。在加入FAIR之前,Ross是Redmond的Microsoft Research研究员和加利福尼亚大学伯克利分校的博士后。兴趣包括将自然语言处理与计算机视觉相结合的实例级对象理解和视觉推理挑战。获得2017年PAMI青年研究奖,并且以开发基于R-CNN(基于区域的卷积神经网络)方法进行物体检测而闻名。2017年,还获得了ICCV的马尔奖。
  2. Kaiming He, Facebook人工智能实验室科学家Kaiming He
    • [http://kaiminghe.com/]
    • Facebook AI Research(FAIR)的研究科学家。曾在Microsoft Research Asia(MSRA)工作,在获得博士学位后于2011年加入FAIR。研究兴趣是计算机视觉和深度学习。 获得2018年PAMI青年研究员奖,CVPR 2009最佳论文奖,CVPR 2016,ICCV 2017,ICCV 2017最佳学生论文奖以及ECCV 2018最佳论文荣誉奖的获得者。残差网络(ResNets)是Google Scholar Metrics 2019 中所有领域引用最多的论文.ResNets的应用还包括语言, 语音和AlphaGo。
  3. Shaoqing Ren
    • [http://shaoqingren.com/]
    • 2016年9月与他人共同创立了自动驾驶软件初创公司Momenta。目前,团队正在研究创新的计算机视觉解决方案,以使自动驾驶汽车成为现实。 获得中国科学技术大学和Microsoft Research Asia的联合博士学位的博士学位。我的上司是孙健博士。于2011年从同一部门获得了工学学士学位。
  4. Jian Sun
    • [http://www.jiansun.org/]
    • 首席科学家, MEGVII Technology研究部常务董事。 在Microsoft Research工作了十三年后,加入MEGVII Technology(也称为Face ++,于2016年7月)担任首席科学家和研究总经理。 生于中国西安,秦始皇兵马俑所在地。他获得了理学学士,硕士学位和博士学位。分别于1997年,2000年和2003年获得西安交通大学的博士学位。紧随其后,他加入了Microsoft Research Asia,一直从事计算机视觉和计算机图形学领域的工作,尤其对解决基础研究问题和构建实际的工作系统感兴趣。他的主要研究兴趣是计算摄影和基于图像的深度学习。
  5. Tsung-Yi Lin
    • [https://vision.cornell.edu/se3/people/tsung-yi-lin/]
    • 于2017年 在Serge Belongie的指导下在康奈尔纽约技术学院获得博士学位。研究兴趣是计算机视觉,尤其是学习用于交叉视图图像匹配和对象检测的视觉表示。目前是Google Brain的研究科学家。
  6. Ali Farhadi
    • [https://homes.cs.washington.edu/~ali/]
    • 华盛顿大学计算机科学与工程系的副教授。领导着艾伦人工智能研究所的PRIOR团队。主要对计算机视觉,机器学习,自然语言和视觉的交集,语义在视觉理解中的作用分析以及视觉推理感兴趣。

初步版本,水平有限,有错误或者不完善的地方,欢迎大家提建议和补充,会一直保持更新,本文为专知内容组原创内容,未经允许不得转载,如需转载请发送邮件至fangquanyi@gmail.com 或 联系微信专知小助手(Rancho_Fang)

敬请关注http://www.zhuanzhi.ai 和关注专知公众号,获取第一手AI相关知识

最近更新:2019-12-10

VIP内容

近年来,深度学习技术在通用目标检测领域取得了显著的突破,并催生了许多场景理解任务。场景图因其强大的语义表达能力和在场景理解中的应用而成为研究的热点。场景图生成(Scene Graph Generation, SGG)是指将图像自动映射为语义结构的场景图,需要正确标注被检测对象及其关系。虽然这是一个具有挑战性的任务,但社区已经提出了许多SGG方法,并取得了良好的效果。在本文中,我们提供了一个全面的综述,在这一领域的最新成就带来了深度学习技术。本文综述了138个具有代表性的研究成果,并从特征提取和融合的角度系统总结了现有的基于图像的SGG方法。我们试图将现有的视觉关系检测方法进行连接和系统化,以全面的方式总结和解释SGG的机制和策略。最后,我们对目前存在的问题和未来的研究方向进行了深入的讨论,完成了本次综述。这一综述将有助于读者更好地了解目前的研究现状和思路。

计算机视觉(CV)的最终目标是构建智能系统,能够像人类一样从数字图像、视频或其他形式中提取有价值的信息。在过去的几十年里,机器学习(ML)为CV的发展做出了巨大的贡献。受人类能够轻松解读和理解视觉场景能力的启发,视觉场景理解一直被推崇为CV的圣杯,并已经引起了研究界的广泛关注。

视觉场景理解包括许多子任务,一般可分为识别和应用两部分。这些识别任务可以在几个语义级别上进行描述。早期的大部分作品主要集中在图像分类上,只给图像分配了一个标签,例如一只猫或一辆车的图像,并进一步分配了多个标注,而没有定位每个标注在图像中的位置,即[38]。大量的神经网络模型已经出现,甚至在图像分类任务[27],[29],[33],[34]中达到了接近人类的性能。此外,其他一些复杂的任务,如像素级的语义分割,对象检测和实例级的实例分割,都建议将图像分解为前景对象和背景杂波。像素级任务的目标是将图像(或多个)的每个像素分类到一个实例中,其中每个实例(或类别)对应于一个类[37]。实例级任务的重点是在给定的场景中检测和识别单个的对象,以及分别用包围框或分割蒙版勾画一个对象。最近提出的一种名为Panoptic Segmentation (PS)的方法同时考虑了逐像素类和实例标签[32]。随着深度神经网络(DNN)的发展,以对象为中心的任务和基于[17]、[19]、[21]、[22]、[23]模型的各种商业化应用取得了重要突破。然而,场景理解超出了对象的定位。更高层次的任务侧重于探索对象之间丰富的语义关系,以及对象与周围环境的交互,如视觉关系检测[15]、[24]、[26]、[41]和人-物交互(HOI)[14]、[16]、[20]。这些任务同样重要,也更具挑战性。在一定程度上,它们的发展取决于个体实例识别技术的性能。同时,对图像内容进行更深层次的语义理解也有助于完成视觉识别任务[2],[6],[36],[39],[120]。Divvala等人[40]研究了各种形式的上下文模型,它们可以提高以物体为中心的识别任务的准确性。近年来,研究者们将计算机视觉与自然语言处理(NLP)相结合,提出了一些先进的研究方向,如图像描述、视觉问答(VQA)、视觉对话等。这些视觉和语言主题需要对我们的视觉世界有丰富的理解,并提供智能系统的各种应用场景。

图1 一个场景图结构的可视化说明和一些应用。场景图生成模型以图像为输入,生成视觉基准的场景图。图像描述可以直接从场景图生成。与此相反,图像生成模型通过从给定的句子或场景图生成逼真的图像来逆过程。引用表达式(REF)标记输入图像中与给定表达式对应的区域,该区域与表达式映射场景图的同一子图。基于场景图的图像检索以查询为输入,将检索视为场景图匹配问题。对于Visual Question answer (VQA)任务,答案有时可以直接在场景图中找到,即使对于更复杂的视觉推理,场景图也很有帮助。

尽管在各个层次的场景理解方面已经取得了长足的进步,但还有很长的路要走。信息的整体感知和有效表达仍然是瓶颈。正如之前的一系列作品[1],[44],[191]所指出的,构建一种高效的、能够捕获全面语义知识的结构化表示是深入理解视觉场景的关键一步。这种表征不仅可以为基本的识别挑战提供上下文线索,也为高级智力视觉任务提供了一个有前途的替代方案。场景图由Johnson et al.[1]提出,是一种基于特定场景中对象实例的可视化图形,其中节点对应于对象边界框及其对象类别,边表示其成对关系。

由于与图像特征相比,场景图具有结构化的抽象和更大的语义表达能力,因此场景图具有处理和提高其他视觉任务的本能潜力。如图1所示,场景图将图像解析为一个简单而有意义的结构,是视觉场景与文本描述之间的桥梁。许多结合视觉和语言的任务都可以通过场景图来处理,包括图像描述[3]、[12]、[18]、视觉问题回答[4]、[5]、基于内容的图像检索CBIR、[7]、图像生成[8]、[9]和参考表达理解[35]。有些任务将图像作为输入,并将其解析为场景图,然后生成合理的文本作为输出。其他任务则从文本描述中提取场景图,然后生成逼真的图像或检索相应的视觉场景。

  • 我们涵盖了几乎所有与该领域相关的当代文献,并对138篇有关场景图生成的论文进行了全面的综述。这些论文按输入模式(即图像、视频和三维网格)进行分类。

  • 从全局的角度提出了二维场景图生成的通用框架,并从特征提取和更新的角度对这些方法进行了分析。

  • 我们对场景图生成的各个方面进行了深入的分析,包括生成框架、对象和关系特征表示、输入模式、训练

成为VIP会员查看完整内容
0
15

最新论文

The extensive research leveraging RGB-D information has been exploited in salient object detection. However, salient visual cues appear in various scales and resolutions of RGB images due to semantic gaps at different feature levels. Meanwhile, similar salient patterns are available in cross-modal depth images as well as multi-scale versions. Cross-modal fusion and multi-scale refinement are still an open problem in RGB-D salient object detection task. In this paper, we begin by introducing top-down and bottom-up iterative refinement architecture to leverage multi-scale features, and then devise attention based fusion module (ABF) to address on cross-modal correlation. We conduct extensive experiments on seven public datasets. The experimental results show the effectiveness of our devised method

0
0
下载
预览
Top
微信扫码咨询专知VIP会员