目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

目标检测(物体检测, Object Detection) 专知荟萃

入门学习

  1. 图像目标检测(Object Detection)原理与实现 (1-6)
  2. 目标检测从入门到精通(1-3)
  3. 深度学习500问之目标检测
  4. 目标检测(Object Detection)入门

综述

  1. 地平线黄李超开讲:深度学习和物体检测!

  2. 对话CVPR2016:目标检测新进展:

  3. 基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN:

  4. 基于深度学习的目标检测研究进展

  5. 讲堂干货No.1|山世光-基于深度学习的目标检测技术进展与展望

  6. 基于特征共享的高效物体检测 Faster R-CNN和ResNet的作者任少卿 博士毕业论文 中文

  7. R-CNN:论文笔记

  8. Fast-RCNN:

  9. Faster-RCNN:

  10. FPN:

  11. R-FCN:

  12. SSD:

  13. YOLO:

  14. DenseBox:余凯特邀报告:基于密集预测图的物体检测技术造就全球领先的ADAS系统

  15. PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection - [http://www.cnblogs.com/xueyuxiaolang/p/5959442.html]

  16. 深度学习论文笔记:DSSD - [https://jacobkong.github.io/blog/2938514597/]

  17. DSOD

  18. Focal Loss:

  19. Soft-NMS:

  20. OHEM:

  21. Mask-RCNN 2017:

  22. 目标检测之比较

  23. 视觉目标检测和识别之过去,现在及可能

  24. CVPR2019目标检测方法进展综述

  25. 基于深度学习的「目标检测」算法综述

  26. 目标检测综述

  27. 深度学习目标检测网络汇总对比

  28. 从锚点到关键点,最新的目标检测方法发展到哪了

  29. 从RCNN到SSD,这应该是最全的一份目标检测算法盘点

  30. 目标检测中的不平衡问题:综述

  31. 深度学习中用于对象检测的最新进展

  32. 基于深度学习的对象检测概述

  33. 目标检测20年:综述

  1. 深度卷积神经网络时代目标检测的最新进展
  2. 用于通用对象检测的深度学习:综述

进阶文章

  1. Deep Neural Networks for Object Detection (基于DNN的对象检测)NIPS2013:

  2. R-CNN Rich feature hierarchies for accurate object detection and semantic segmentation:

  3. Fast R-CNN :

  4. Faster R-CNN Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks:

  5. Mask R-CNN

  6. Light-Head R-CNN

  7. Cascade R-CNN

  8. Scalable Object Detection using Deep Neural Networks

  9. Scalable, High-Quality Object Detection

  10. SPP-Net Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

  11. DeepID-Net DeepID-Net: Deformable Deep Convolutional Neural Networks for Object Detection

  12. Object Detectors Emerge in Deep Scene CNNs

  13. segDeepM: Exploiting Segmentation and Context in Deep Neural Networks for Object Detection

  14. Object Detection Networks on Convolutional Feature Maps

  15. Improving Object Detection with Deep Convolutional Networks via Bayesian Optimization and Structured Prediction

  16. DeepBox: Learning Objectness with Convolutional Networks

  17. Object detection via a multi-region & semantic segmentation-aware CNN model

  18. You Only Look Once: Unified, Real-Time Object Detection

  19. YOLOv2 YOLO9000: Better, Faster, Stronger

  20. YOLOv3

  21. YOLT

  22. AttentionNet: Aggregating Weak Directions for Accurate Object Detection

  23. DenseBox: Unifying Landmark Localization with End to End Object Detection

  24. SSD: Single Shot MultiBox Detector

  25. DSSD : Deconvolutional Single Shot Detector

  26. FSSD

  27. ESSD

  28. MDSSD

  29. Pelee

  30. Fire SSD

  31. G-CNN: an Iterative Grid Based Object Detector

  32. HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection

  33. A MultiPath Network for Object Detection

  34. R-FCN: Object Detection via Region-based Fully Convolutional Networks

  35. A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

  36. PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection

  37. Feature Pyramid Networks for Object Detection

  38. Learning Chained Deep Features and Classifiers for Cascade in Object Detection

  39. DSOD: Learning Deeply Supervised Object Detectors from Scratch

  40. Focal Loss for Dense Object Detection ICCV 2017 Best student paper award. Facebook AI Research

  41. MegDet

  42. Mask-RCNN 2017 ICCV 2017 Best paper award. Facebook AI Research

  43. RefineNet

  44. DetNet

  45. SSOD

  46. CornerNet

  47. M2Det

  48. 3D Object Detection

  49. ZSD(Zero-Shot Object Detection)

  50. OSD(One-Shot object Detection)

  51. Weakly Supervised Object Detection

  52. Softer-NMS

  53. NAS-FPN,可实现比Mask-RCNN、FPN、SSD更快更好的目标检测

  54. 多方向目标检测:水平边界框上的滑动顶点

  55. SM-NAS:结构到模块的神经体系结构搜索以进行目标检测

  56. 基于PSNet和边框回归的弱监督目标检测(WSOD)

  57. 带有可见IoU和Box Sign预测器的遮挡性行人检测

  58. CSPNet:可以增强CNN学习能力的新型Backbone

  59. ReBiF:残差双融合特征金字塔网络,用于较精确的Single-shot目标检测

  60. 目标检测的性能上界讨论

  61. DIoU Loss:更快更好地学习边界框回归

  62. CoAE:用于One-Shot目标检测的共同注意和共同激励

  63. SAPD:Soft Anchor-Point目标检测

  64. MMOD:基于混合模型的目标检测边界框密度估计

  65. IENet:方向性航空目标检测的One Stage Anchor Free检测器

  66. MnasFPN:用于移动设备上目标检测的延迟感知的金字塔体系结构

  67. IPG-Net:用于目标检测的图像金字塔引导网络

  68. MAL:用于目标检测的多Anchor学习

  69. ATSS:缩小Anchor-free和Anchor-based的性能差距:通过自适应训练样本选择

  70. Strong-Weak Distribution Alignment for Adaptive Object Detection

  71. PartNet: A Recursive Part Decomposition Network for Fine-grained and Hierarchical Shape Segmentation

  72. Deep HoughVoting for 3D Object Detection in Point Clouds

  73. Simultaneous multi-view instance detection with learned geometric soft-constraints

  74. Cap2Det: Learning to Amplify Weak Caption Supervision for Object Detection

  75. Towards Adversarially Robust Object Detection

  76. Multi-adversarial Faster-RCNN for Unrestricted Object Detection

  77. Selectivity or Invariance: Boundary-aware Salient Object Detection

  78. Joint Monocular 3D Detection and Tracking

  79. GA-DAN: Geometry-Aware Domain Adaptation Network for Scene Text Detection and Recognition

  80. ThunderNet: Towards Real-time Generic Object Detection

  81. MemorizingNormality to Detect Anomaly: Memory-augmented Deep Autoencoder (MemAE) forUnsupervised Anomaly Detection

Tutorial

  1. CVPR'17 Tutorial Deep Learning for Objects and Scenes by Kaiming He Ross Girshick
  2. ICCV 2015 Tools for Efficient Object Detection
  3. Object Detection
  4. Image Recognition and Object Detection : Part 1
  5. R-CNN for Object Detection
  6. 史上最详尽的yolo教程
  7. Keras-RetinaNet训练自己的数据详细教程

视频教程

  1. cs231 第11讲 Detection and Segmentation
  2. Deep Learning for Instance-level Object Understanding by Ross Girshick.
  3. (全)深度学习之目标检测常用算法原理+实践精讲
  4. 最全的目标检测原理讲解
  5. 深度学习之分类与目标检测
  6. 2019最新基于深度学习的目标检测原理及实践教程
  7. Tensorflow Object Detection Tutorial

代码

  1. R-CNN

  2. Fast R-CNN:

  3. Faster R-CNN

  4. SPP-Net

  5. YOLO

  6. YOLOv2

  7. YOLOv3

  8. SSD

  9. Recurrent Scale Approximation for Object Detection in CNN

  10. Mask-RCNN 2017

  11. Light-Head R-CNN

  12. Cascade R-CNN

  13. YOLT

  14. DSSD

  15. Pelee

  16. R-FCN

  17. FPN

  18. DSOD

  19. RetinaNet

  20. MegDet

  21. RefineNet

  22. DetNet

  23. CornerNet

  24. M2Det

  25. 3D Object Detection

  26. Softer-NMS

领域专家

  1. Ross Girshick (rbg 大神)
    • [http://www.rossgirshick.info/]
    • Ross Girshick是Facebook AI Research(FAIR)的研究科学家,致力于计算机视觉和机器学习。于2012年在Pedro Felzenszwalb的指导下获得了芝加哥大学的计算机科学博士学位。在加入FAIR之前,Ross是Redmond的Microsoft Research研究员和加利福尼亚大学伯克利分校的博士后。兴趣包括将自然语言处理与计算机视觉相结合的实例级对象理解和视觉推理挑战。获得2017年PAMI青年研究奖,并且以开发基于R-CNN(基于区域的卷积神经网络)方法进行物体检测而闻名。2017年,还获得了ICCV的马尔奖。
  2. Kaiming He, Facebook人工智能实验室科学家Kaiming He
    • [http://kaiminghe.com/]
    • Facebook AI Research(FAIR)的研究科学家。曾在Microsoft Research Asia(MSRA)工作,在获得博士学位后于2011年加入FAIR。研究兴趣是计算机视觉和深度学习。 获得2018年PAMI青年研究员奖,CVPR 2009最佳论文奖,CVPR 2016,ICCV 2017,ICCV 2017最佳学生论文奖以及ECCV 2018最佳论文荣誉奖的获得者。残差网络(ResNets)是Google Scholar Metrics 2019 中所有领域引用最多的论文.ResNets的应用还包括语言, 语音和AlphaGo。
  3. Shaoqing Ren
    • [http://shaoqingren.com/]
    • 2016年9月与他人共同创立了自动驾驶软件初创公司Momenta。目前,团队正在研究创新的计算机视觉解决方案,以使自动驾驶汽车成为现实。 获得中国科学技术大学和Microsoft Research Asia的联合博士学位的博士学位。我的上司是孙健博士。于2011年从同一部门获得了工学学士学位。
  4. Jian Sun
    • [http://www.jiansun.org/]
    • 首席科学家, MEGVII Technology研究部常务董事。 在Microsoft Research工作了十三年后,加入MEGVII Technology(也称为Face ++,于2016年7月)担任首席科学家和研究总经理。 生于中国西安,秦始皇兵马俑所在地。他获得了理学学士,硕士学位和博士学位。分别于1997年,2000年和2003年获得西安交通大学的博士学位。紧随其后,他加入了Microsoft Research Asia,一直从事计算机视觉和计算机图形学领域的工作,尤其对解决基础研究问题和构建实际的工作系统感兴趣。他的主要研究兴趣是计算摄影和基于图像的深度学习。
  5. Tsung-Yi Lin
    • [https://vision.cornell.edu/se3/people/tsung-yi-lin/]
    • 于2017年 在Serge Belongie的指导下在康奈尔纽约技术学院获得博士学位。研究兴趣是计算机视觉,尤其是学习用于交叉视图图像匹配和对象检测的视觉表示。目前是Google Brain的研究科学家。
  6. Ali Farhadi
    • [https://homes.cs.washington.edu/~ali/]
    • 华盛顿大学计算机科学与工程系的副教授。领导着艾伦人工智能研究所的PRIOR团队。主要对计算机视觉,机器学习,自然语言和视觉的交集,语义在视觉理解中的作用分析以及视觉推理感兴趣。

初步版本,水平有限,有错误或者不完善的地方,欢迎大家提建议和补充,会一直保持更新,本文为专知内容组原创内容,未经允许不得转载,如需转载请发送邮件至fangquanyi@gmail.com 或 联系微信专知小助手(Rancho_Fang)

敬请关注http://www.zhuanzhi.ai 和关注专知公众号,获取第一手AI相关知识

最近更新:2019-12-10

VIP内容

【导读】机器学习顶会 NeurIPS 2020, 是人工智能领域全球最具影响力的学术会议之一,因此在该会议上发表论文的研究者也会备受关注。据官方统计,今年NeurIPS 2020 共收到论文投稿 9454 篇,接收 1900 篇(其中 oral 论文 105 篇、spotlight 论文 280 篇),论文接收率为 20.1%。NeurIPS 2020已经开完了,小编发现目标检测(Object Detection)相关的接受paper不少,目标检测在NeurIPS上越来越多,也显示出目标检测这个传统任务在当前还具有比较鲜活的生命力。

为此,这期小编为大家奉上NeurIPS 2020必读的七篇目标检测(Object Detection)相关论文——平均定位和分类Loss、对抗自步学习、细粒度动态、泛化Focal Loss、RelationNet++、少样本目标检测、弱监督目标检测

NeurIPS 2020 Accepted Papers : https://proceedings.neurips.cc/paper/2020

NIPS2020VRL、NIPS2020DA、NIPS2020CI、ICLR2020CI、ICML2020CI

1. A Ranking-based, Balanced Loss Function Unifying Classification and Localisation in Object Detection

作者:Kemal Oksuz, Baris Can Cam, Emre Akbas, Sinan Kalkan

摘要:我们提出了一个平均定位召回精度(average Localisation-Recall-Precision, aLRP),这是一种统一,有界,平衡和基于排名的损失函数,用于目标检测中的分类和定位任务。aLRP扩展了平均召回率(LRP)性能指标,其idea来自于平均精确度(AP)损失如何将精确度扩展到基于排名的损失函数进行分类。aLRP具有以下明显的优势:(i)aLRP是分类和定位任务中第一个基于排名的损失函数。(ii)由于对两个任务都使用了排名,因此aLRP自然可以对高精度分类实施高质量的定位。(iii)aLRP在正负样本之间提供了可证明的平衡性。(iv)与最先进的检测器的损失函数中平均具有6个超参数相比,aLRP损失只有一个超参数,我们在实验中并未对其进行调整。在COCO数据集上,aLRP 损失改进了其基于排名的AP 损失,最多可增加5个AP点,在不增加测试时间的情况下AP可达到48.9,并且优于所有的先进的检测器。

代码: https://github.com/kemaloksuz/aLRPLoss

网址: https://proceedings.neurips.cc/paper/2020/hash/b2eeb7362ef83deff5c7813a67e14f0a-Abstract.html

2. Few-Cost Salient Object Detection with Adversarial-Paced Learning

作者:Dingwen Zhang, HaiBin Tian, Jungong Han

摘要:近年来,从给定图像场景中检测和分割显著目标(salient objects)已引起了极大的关注。训练现有深度显著性检测模型的根本挑战是需要大量带标注的数据。尽管收集大量的训练数据变得既便宜又容易,但是从时间,劳动力和人的专业知识方面来说,对数据进行标注是一个昂贵的过程。为了解决这个问题,本文提出仅在少数训练图像上基于人工标注学习有效的显著性目标检测模型,从而大大减轻训练模型中的人工劳动。为此,我们将该任务命名为“成本最低的显著性目标检测”,并提出了一种基于对抗性学习(APL)的框架,以加强其学习场景。本质上,APL源自自主学习(self-paced learning, SPL)机制,与学习正则化的启发式设计不同,它通过数据驱动的对抗性学习机制来推断强大的学习速度。对四个广泛使用的基准数据集进行的综合实验表明,该方法可以仅用1k人工注释训练图像有效地处理了现有的有监督的深度显著性目标检测模型。

代码: https://github.com/hb-stone/FC-SOD

网址: https://proceedings.neurips.cc/paper/2020/hash/8fc687aa152e8199fe9e73304d407bca-Abstract.html

3. Fine-Grained Dynamic Head for Object Detection

作者:Lin Song, Yanwei Li, Zhengkai Jiang, Zeming Li, Hongbin Sun, Jian Sun, Nanning Zheng

摘要:特征金字塔网络(FPN)提出了一种优异的方法,可以通过执行实例级分配来减轻目标表观中的比例差异。然而,这种策略忽略了实例中不同子区域的独特特征。为此,我们提出了一种细粒度的动态头(dynamic head),可以针对每种情况从不同的比例有条件地选择FPN特征的像素级组合,从而进一步释放了多比例特征表示的能力。此外,我们设计了具有新激活函数的空间门,以通过空间稀疏卷积显着降低计算复杂性。大量实验证明了该方法在几种最新检测基准上的有效性和效率。

代码: https://github.com/StevenGrove/DynamicHead

网址: https://proceedings.neurips.cc/paper/2020/hash/7f6caf1f0ba788cd7953d817724c2b6e-Abstract.html

4. Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

作者:Xiang Li, Wenhai Wang, Lijun Wu, Shuo Chen, Xiaolin Hu, Jun Li, Jinhui Tang, Jian Yang

摘要:一步法(One-stage)检测器基本上将目标检测公式化为密集的分类和定位(即边界框回归)。通常通过Focal Loss 来优化分类,并且通常在狄拉克(Dirac delta)分布下了解其位置。一步法检测器的最新趋势是引入单个预测分支来估计定位质量,其中预测质量有助于分类以提高检测性能。本文研究了以上三个基本元素的表示形式:质量估计,分类和定位。在现有实践中发现了两个问题,包括(1)训练和推理之间质量估计和分类的用法不一致,以及(2)用于定位的不灵活的狄拉克分布。为了解决这些问题,我们为这些元素设计了新的表示形式。具体来说,我们将质量估计合并到类预测向量中以形成联合表示,并使用向量表示框位置的任意分布。改进的表示法消除了不一致的风险,并准确地描述了实际数据中的灵活分布,但这些表示中包含连续标签,这超出了Focal Loss的范围。然后,我们提出 Generalized Focal Loss(GFL),将Focal Loss从离散形式推广到连续版本,以实现成功的优化。在COCO测试开发中,GFL使用ResNet-101主干网络在AP上达到了45.0%,以更高或相当的推理速度超过了最先进的SAPD(43.5%)和A TSS(43.6%)。

网址: https://proceedings.neurips.cc/paper/2020/hash/f0bda020d2470f2e74990a07a607ebd9-Abstract.html

5. RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decoder

作者:Cheng Chi, Fangyun Wei, Han Hu

摘要:现有的目标检测框架通常建立在目标表示的单一格式上,即RetinaNet和Faster R-CNN中的锚点/建议矩形框,FCOS和RepPoints中的中心点以及CornerNet中的角点。尽管这些不同的表示形式通常会驱动框架在不同方面表现良好,例如更好的分类或更好的定位,但是由于异构或非均一性,通常很难将这些表示形式组合到单个框架中以充分利用每种优势。本文提出了一种基于注意力的解码器模块,与Transformer中的模块类似,以端到端的方式将其他表示形式桥接到基于单个表示形式格式的典型目标检测器中。其他表示充当一组key实例,以增强vanilla检测器中的主要query表示特征。提出了用于有效计算解码器模块的新技术,包括key采样方法和共享位置嵌入方法。我们将提出的模块称为桥接视觉表示(bridging visual representations, BVR)。并且我们证明了其在将其他表示形式桥接到流行的目标检测框架(包括RetinaNet,Faster R-CNN,FCOS和A TSS)中的广泛有效性,在这些方面在 AP实现了约1.5到3.0 的改进。特别是,我们将具有强大主干的最新框架在AP上改进了约2.0 ,在COCO测试开发中AP达到了52.7 A。我们将生成的网络名为RelationNet ++。

代码: https://github.com/microsoft/RelationNet2

网址: https://proceedings.neurips.cc/paper/2020/hash/9d684c589d67031a627ad33d59db65e5-Abstract.html

6. Restoring Negative Information in Few-Shot Object Detection

作者:Yukuan Yang, Fangyun Wei, Miaojing Shi, Guoqi Li

摘要:少样本学习成为深度学习领域的新挑战:与训练带有大量标记数据的深度神经网络(DNN)的常规方法不同,它要求在带有少量标注的新类别上推广DNN。少样本学习的最新进展主要集中在图像分类上,而在本文中,我们着重于目标检测。少样本目标检测的最初探索趋向于通过使用图像中相对于某些物体类别的正proposals而抛弃该类别的负 proposals来模拟分类场景。负样本,尤其是难样本,对于少样本目标检测中的嵌入空间学习至关重要。在本文中,我们通过引入一个新的基于负和正表观的度量学习框架以及具有负和正表观的新推理方案,来恢复少样本目标检测中的负信息。我们基于最近很少使用的pipeline RepMet构建我们的工作,该模型带有几个新模块,可以对负面信息进行编码,以进行训练和测试。在ImageNet-LOC和PASCAL VOC上进行的大量实验表明,我们的方法极大地改进了最新的少样本目标检测解决方案。

代码: https://github.com/yang-yk/NP-RepMet

网址: https://proceedings.neurips.cc/paper/2020/hash/240ac9371ec2671ae99847c3ae2e6384-Abstract.html

7. UWSOD: Toward Fully-Supervised-Level Capacity Weakly Supervised Object Detection

作者:Yunhang Shen, Rongrong Ji, Zhiwei Chen, Yongjian Wu, Feiyue Huang

摘要:弱监督目标检测(WSOD)由于具有极大的灵活性,可以利用仅具有图像级标注的大规模数据集来进行检测器训练,因此受到了广泛的研究关注。尽管近年来有了很大的进步,但是WSOD的性能仍然受到限制,远远低于有监督的目标检测(FSOD)。由于大多数WSOD方法依赖于object proposal算法来生成候选区域,并且还面临着诸如质量低下的预测边界框和大规模变化之类的挑战。在本文中,我们提出了一个统一的WSOD框架(称为UWSOD),以构建仅包含图像级标签的大容量通用检测模型,该模型是独立的,不需要外部模块或其他监督。为此,我们利用了三个重要的组件,即object proposal生成,边界框微调和尺度不变特征。首先,我们提出一个基于锚点的自监督的proposa生成器来假设目标位置,该生成器由UWSOD创建的监督进行端到端的训练,以进行目标分类和回归。其次,我们通过逐步选择高可信度object proposal作为正样本,开发了逐步的边界框微调,以精炼检测分数和坐标,从而引导了预测边界框的质量。第三,我们构造了一个多速率重采样金字塔以聚合多尺度上下文信息,这是处理WSOD中尺度变化的第一个网络内特征层次结构。在PASCAL VOC和MS COCO上进行的大量实验表明,所提出的UWSOD使用最新的WSOD方法可获得竞争性结果,而无需外部模块或额外的监督。此外,具有类不可知的ground-truth边界框的UWSOD的上限性能接近Faster R-CNN,这表明UWSOD具有完全受监督级别的能力。

代码: https://github.com/shenyunhang/UWSOD

网址: https://proceedings.neurips.cc/paper/2020/hash/4e0928de075538c593fbdabb0c5ef2c3-Abstract.html

成为VIP会员查看完整内容
0
20

最新论文

Multi-object tracking (MOT) is an integral part of any autonomous driving pipelines because itproduces trajectories which has been taken by other moving objects in the scene and helps predicttheir future motion. Thanks to the recent advances in 3D object detection enabled by deep learning,track-by-detection has become the dominant paradigm in 3D MOT. In this paradigm, a MOT systemis essentially made of an object detector and a data association algorithm which establishes track-to-detection correspondence. While 3D object detection has been actively researched, associationalgorithms for 3D MOT seem to settle at a bipartie matching formulated as a linear assignmentproblem (LAP) and solved by the Hungarian algorithm. In this paper, we adapt a two-stage dataassociation method which was successful in image-based tracking to the 3D setting, thus providingan alternative for data association for 3D MOT. Our method outperforms the baseline using one-stagebipartie matching for data association by achieving 0.587 AMOTA in NuScenes validation set.

0
0
下载
预览
Top