目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

目标检测(物体检测, Object Detection) 专知荟萃

入门学习

  1. 图像目标检测(Object Detection)原理与实现 (1-6)
  2. 目标检测从入门到精通(1-3)
  3. 深度学习500问之目标检测
  4. 目标检测(Object Detection)入门

综述

  1. 地平线黄李超开讲:深度学习和物体检测!

  2. 对话CVPR2016:目标检测新进展:

  3. 基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN:

  4. 基于深度学习的目标检测研究进展

  5. 讲堂干货No.1|山世光-基于深度学习的目标检测技术进展与展望

  6. 基于特征共享的高效物体检测 Faster R-CNN和ResNet的作者任少卿 博士毕业论文 中文

  7. R-CNN:论文笔记

  8. Fast-RCNN:

  9. Faster-RCNN:

  10. FPN:

  11. R-FCN:

  12. SSD:

  13. YOLO:

  14. DenseBox:余凯特邀报告:基于密集预测图的物体检测技术造就全球领先的ADAS系统

  15. PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection - [http://www.cnblogs.com/xueyuxiaolang/p/5959442.html]

  16. 深度学习论文笔记:DSSD - [https://jacobkong.github.io/blog/2938514597/]

  17. DSOD

  18. Focal Loss:

  19. Soft-NMS:

  20. OHEM:

  21. Mask-RCNN 2017:

  22. 目标检测之比较

  23. 视觉目标检测和识别之过去,现在及可能

  24. CVPR2019目标检测方法进展综述

  25. 基于深度学习的「目标检测」算法综述

  26. 目标检测综述

  27. 深度学习目标检测网络汇总对比

  28. 从锚点到关键点,最新的目标检测方法发展到哪了

  29. 从RCNN到SSD,这应该是最全的一份目标检测算法盘点

  30. 目标检测中的不平衡问题:综述

  31. 深度学习中用于对象检测的最新进展

  32. 基于深度学习的对象检测概述

  33. 目标检测20年:综述

  1. 深度卷积神经网络时代目标检测的最新进展
  2. 用于通用对象检测的深度学习:综述

进阶文章

  1. Deep Neural Networks for Object Detection (基于DNN的对象检测)NIPS2013:

  2. R-CNN Rich feature hierarchies for accurate object detection and semantic segmentation:

  3. Fast R-CNN :

  4. Faster R-CNN Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks:

  5. Mask R-CNN

  6. Light-Head R-CNN

  7. Cascade R-CNN

  8. Scalable Object Detection using Deep Neural Networks

  9. Scalable, High-Quality Object Detection

  10. SPP-Net Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

  11. DeepID-Net DeepID-Net: Deformable Deep Convolutional Neural Networks for Object Detection

  12. Object Detectors Emerge in Deep Scene CNNs

  13. segDeepM: Exploiting Segmentation and Context in Deep Neural Networks for Object Detection

  14. Object Detection Networks on Convolutional Feature Maps

  15. Improving Object Detection with Deep Convolutional Networks via Bayesian Optimization and Structured Prediction

  16. DeepBox: Learning Objectness with Convolutional Networks

  17. Object detection via a multi-region & semantic segmentation-aware CNN model

  18. You Only Look Once: Unified, Real-Time Object Detection

  19. YOLOv2 YOLO9000: Better, Faster, Stronger

  20. YOLOv3

  21. YOLT

  22. AttentionNet: Aggregating Weak Directions for Accurate Object Detection

  23. DenseBox: Unifying Landmark Localization with End to End Object Detection

  24. SSD: Single Shot MultiBox Detector

  25. DSSD : Deconvolutional Single Shot Detector

  26. FSSD

  27. ESSD

  28. MDSSD

  29. Pelee

  30. Fire SSD

  31. G-CNN: an Iterative Grid Based Object Detector

  32. HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection

  33. A MultiPath Network for Object Detection

  34. R-FCN: Object Detection via Region-based Fully Convolutional Networks

  35. A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

  36. PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection

  37. Feature Pyramid Networks for Object Detection

  38. Learning Chained Deep Features and Classifiers for Cascade in Object Detection

  39. DSOD: Learning Deeply Supervised Object Detectors from Scratch

  40. Focal Loss for Dense Object Detection ICCV 2017 Best student paper award. Facebook AI Research

  41. MegDet

  42. Mask-RCNN 2017 ICCV 2017 Best paper award. Facebook AI Research

  43. RefineNet

  44. DetNet

  45. SSOD

  46. CornerNet

  47. M2Det

  48. 3D Object Detection

  49. ZSD(Zero-Shot Object Detection)

  50. OSD(One-Shot object Detection)

  51. Weakly Supervised Object Detection

  52. Softer-NMS

  53. NAS-FPN,可实现比Mask-RCNN、FPN、SSD更快更好的目标检测

  54. 多方向目标检测:水平边界框上的滑动顶点

  55. SM-NAS:结构到模块的神经体系结构搜索以进行目标检测

  56. 基于PSNet和边框回归的弱监督目标检测(WSOD)

  57. 带有可见IoU和Box Sign预测器的遮挡性行人检测

  58. CSPNet:可以增强CNN学习能力的新型Backbone

  59. ReBiF:残差双融合特征金字塔网络,用于较精确的Single-shot目标检测

  60. 目标检测的性能上界讨论

  61. DIoU Loss:更快更好地学习边界框回归

  62. CoAE:用于One-Shot目标检测的共同注意和共同激励

  63. SAPD:Soft Anchor-Point目标检测

  64. MMOD:基于混合模型的目标检测边界框密度估计

  65. IENet:方向性航空目标检测的One Stage Anchor Free检测器

  66. MnasFPN:用于移动设备上目标检测的延迟感知的金字塔体系结构

  67. IPG-Net:用于目标检测的图像金字塔引导网络

  68. MAL:用于目标检测的多Anchor学习

  69. ATSS:缩小Anchor-free和Anchor-based的性能差距:通过自适应训练样本选择

  70. Strong-Weak Distribution Alignment for Adaptive Object Detection

  71. PartNet: A Recursive Part Decomposition Network for Fine-grained and Hierarchical Shape Segmentation

  72. Deep HoughVoting for 3D Object Detection in Point Clouds

  73. Simultaneous multi-view instance detection with learned geometric soft-constraints

  74. Cap2Det: Learning to Amplify Weak Caption Supervision for Object Detection

  75. Towards Adversarially Robust Object Detection

  76. Multi-adversarial Faster-RCNN for Unrestricted Object Detection

  77. Selectivity or Invariance: Boundary-aware Salient Object Detection

  78. Joint Monocular 3D Detection and Tracking

  79. GA-DAN: Geometry-Aware Domain Adaptation Network for Scene Text Detection and Recognition

  80. ThunderNet: Towards Real-time Generic Object Detection

  81. MemorizingNormality to Detect Anomaly: Memory-augmented Deep Autoencoder (MemAE) forUnsupervised Anomaly Detection

Tutorial

  1. CVPR'17 Tutorial Deep Learning for Objects and Scenes by Kaiming He Ross Girshick
  2. ICCV 2015 Tools for Efficient Object Detection
  3. Object Detection
  4. Image Recognition and Object Detection : Part 1
  5. R-CNN for Object Detection
  6. 史上最详尽的yolo教程
  7. Keras-RetinaNet训练自己的数据详细教程

视频教程

  1. cs231 第11讲 Detection and Segmentation
  2. Deep Learning for Instance-level Object Understanding by Ross Girshick.
  3. (全)深度学习之目标检测常用算法原理+实践精讲
  4. 最全的目标检测原理讲解
  5. 深度学习之分类与目标检测
  6. 2019最新基于深度学习的目标检测原理及实践教程
  7. Tensorflow Object Detection Tutorial

代码

  1. R-CNN

  2. Fast R-CNN:

  3. Faster R-CNN

  4. SPP-Net

  5. YOLO

  6. YOLOv2

  7. YOLOv3

  8. SSD

  9. Recurrent Scale Approximation for Object Detection in CNN

  10. Mask-RCNN 2017

  11. Light-Head R-CNN

  12. Cascade R-CNN

  13. YOLT

  14. DSSD

  15. Pelee

  16. R-FCN

  17. FPN

  18. DSOD

  19. RetinaNet

  20. MegDet

  21. RefineNet

  22. DetNet

  23. CornerNet

  24. M2Det

  25. 3D Object Detection

  26. Softer-NMS

领域专家

  1. Ross Girshick (rbg 大神)
    • [http://www.rossgirshick.info/]
    • Ross Girshick是Facebook AI Research(FAIR)的研究科学家,致力于计算机视觉和机器学习。于2012年在Pedro Felzenszwalb的指导下获得了芝加哥大学的计算机科学博士学位。在加入FAIR之前,Ross是Redmond的Microsoft Research研究员和加利福尼亚大学伯克利分校的博士后。兴趣包括将自然语言处理与计算机视觉相结合的实例级对象理解和视觉推理挑战。获得2017年PAMI青年研究奖,并且以开发基于R-CNN(基于区域的卷积神经网络)方法进行物体检测而闻名。2017年,还获得了ICCV的马尔奖。
  2. Kaiming He, Facebook人工智能实验室科学家Kaiming He
    • [http://kaiminghe.com/]
    • Facebook AI Research(FAIR)的研究科学家。曾在Microsoft Research Asia(MSRA)工作,在获得博士学位后于2011年加入FAIR。研究兴趣是计算机视觉和深度学习。 获得2018年PAMI青年研究员奖,CVPR 2009最佳论文奖,CVPR 2016,ICCV 2017,ICCV 2017最佳学生论文奖以及ECCV 2018最佳论文荣誉奖的获得者。残差网络(ResNets)是Google Scholar Metrics 2019 中所有领域引用最多的论文.ResNets的应用还包括语言, 语音和AlphaGo。
  3. Shaoqing Ren
    • [http://shaoqingren.com/]
    • 2016年9月与他人共同创立了自动驾驶软件初创公司Momenta。目前,团队正在研究创新的计算机视觉解决方案,以使自动驾驶汽车成为现实。 获得中国科学技术大学和Microsoft Research Asia的联合博士学位的博士学位。我的上司是孙健博士。于2011年从同一部门获得了工学学士学位。
  4. Jian Sun
    • [http://www.jiansun.org/]
    • 首席科学家, MEGVII Technology研究部常务董事。 在Microsoft Research工作了十三年后,加入MEGVII Technology(也称为Face ++,于2016年7月)担任首席科学家和研究总经理。 生于中国西安,秦始皇兵马俑所在地。他获得了理学学士,硕士学位和博士学位。分别于1997年,2000年和2003年获得西安交通大学的博士学位。紧随其后,他加入了Microsoft Research Asia,一直从事计算机视觉和计算机图形学领域的工作,尤其对解决基础研究问题和构建实际的工作系统感兴趣。他的主要研究兴趣是计算摄影和基于图像的深度学习。
  5. Tsung-Yi Lin
    • [https://vision.cornell.edu/se3/people/tsung-yi-lin/]
    • 于2017年 在Serge Belongie的指导下在康奈尔纽约技术学院获得博士学位。研究兴趣是计算机视觉,尤其是学习用于交叉视图图像匹配和对象检测的视觉表示。目前是Google Brain的研究科学家。
  6. Ali Farhadi
    • [https://homes.cs.washington.edu/~ali/]
    • 华盛顿大学计算机科学与工程系的副教授。领导着艾伦人工智能研究所的PRIOR团队。主要对计算机视觉,机器学习,自然语言和视觉的交集,语义在视觉理解中的作用分析以及视觉推理感兴趣。

初步版本,水平有限,有错误或者不完善的地方,欢迎大家提建议和补充,会一直保持更新,本文为专知内容组原创内容,未经允许不得转载,如需转载请发送邮件至fangquanyi@gmail.com 或 联系微信专知小助手(Rancho_Fang)

敬请关注http://www.zhuanzhi.ai 和关注专知公众号,获取第一手AI相关知识

最近更新:2019-12-10

VIP内容

摘要

本文提出了一个简单而通用的目标检测框架Pix2Seq。不像现有的方法,明确地集成关于任务的先验知识,我们简单地将目标检测作为一个语言建模任务,条件是观察像素输入。目标描述(如包围盒和类标签)被表示为离散符号序列,我们训练神经网络来感知图像并生成所需的序列。我们的方法主要基于直觉,即如果神经网络知道目标在哪里和是什么,我们只需要教它如何读出它们。除了使用特定于任务的数据增强外,我们的方法对任务进行了最小的假设,但与高度专业化和良好优化的检测算法相比,它在具有挑战性的COCO数据集上取得了具有非常好的结果。

引言

视觉目标检测系统的目标是识别和定位图像中所有预定义类别的目标。检测到的对象通常由一组包围框和相关的类标签描述。考虑到任务的难度,大多数现有的方法,如(Girshick, 2015; Ren et al., 2015; He et al., 2017; Lin et al., 2017b; Carion et al., 2020),经过精心设计和高度定制,在结构和损失功能的选择方面具有大量的先验知识。例如,许多架构都使用了边界框(例如,区域方案(Girshick, 2015;Ren et al., 2015)和RoI池化(Girshick et al., 2014; He et al., 2017))。损失函数也经常被裁剪为使用边界盒,如盒回归(Szegedy et al., 2013;Lin et al., 2017b),集匹配(Erhan et al., 2014;Carion et al., 2020),或合并特定的性能指标,如边界框上的交叉-联合(Rezatofighi et al., 2019)。尽管现有系统在无数领域都有应用,从自动驾驶汽车(Sun et al., 2020),到医学图像分析(Jaeger et al., 2020),再到农业(Sa et al., 2016),但其专业化和复杂性使其难以整合到一个更大的系统中。或者泛化到与通用智能相关的更广泛的任务。

本文提出一种新的方法,如果神经网络知道目标在哪里和什么,我们只需要教它把它们读出来。通过学习“描述”对象目标,模型可以学习以像素观察为基础的“语言”,从而得到有用的目标表示。这是通过我们的Pix2Seq框架实现的。给定一个图像,我们的模型产生一个离散的标记序列,对应于目标描述,让人想起图像字幕系统(Vinyals et al., 2015b; Karpathy & Fei-Fei, 2015; Xu et al., 2015)。本质上,我们将目标检测视为一个以像素输入为条件的语言建模任务,其模型结构和损失函数是通用的、相对简单的,没有针对检测任务进行专门设计。因此,可以很容易地将框架扩展到不同的领域或应用,或将其合并到支持一般智能的感知系统中,为广泛的视觉任务提供语言接口。

为了处理Pix2Seq的检测任务,我们首先提出了一个量化和序列化方案,将包围盒和类标签转换成一个离散令牌序列。然后我们利用编码器-解码器体系结构来感知像素输入并生成目标序列。目标函数是基于像素输入和之前的标记的最大可能性。虽然体系结构和损失函数都是任务无关的(无需假设关于目标检测的先验知识,例如包围框),但我们仍然可以将特定于任务的先验知识与序列增强技术结合起来,该技术在训练过程中改变输入和目标序列,如下所示。通过广泛的实验,与高度定制的、建立良好的方法相比,包括Faster R-CNN (Ren et al., 2015)和DETR (Carion et al., 2020)。,我们证明了这个简单的Pix2Seq框架可以在COCO数据集上取得有竞争力的结果。

PIX2SEQ框架

在提出的Pix2Seq框架中,我们将目标检测视为一项语言建模任务,条件是像素输入。如图1所示,Pix2Seq的架构和学习过程有四个主要组件(图2):

图像增强:在训练计算机视觉模型中很常见,我们使用图像增强来丰富一组固定的训练样例

序列构造和增强:由于图像的目标标注通常表示为一组包围盒和类标签,我们将它们转换为一组离散标记。

架构:我们使用编码器-解码器模型,编码器感知像素输入,解码器生成目标序列(每次一个标记)。

目标/损失函数:对模型进行训练,使以图像和之前的令牌为条件的令牌的对数可能性最大化(具有softmax交叉熵损失)。

实验结果

我们在MS-COCO 2017检测数据集(Lin et al., 2014)上评估了提出的方法,该数据集包含118k训练图像和5k验证图像。为了与DETR和Faster R-CNN进行比较,我们报告了平均精度(AP)。

结果如表1所示,其中每一节比较相同ResNet“骨干网”的不同方法。总体而言,Pix2Seq在这两个Baseline上都取得了有相匹配的结果。我们的模型在小型和中型目标对象上的表现与Faster R-CNN相当,但在大型目标对象上表现更好。与DETR相比,我们的模型在大型和中型目标对象上的性能相当或略差,但在小型目标上性能明显更好。

结论

本文介绍了一个简单而通用的目标检测框架Pix2Seq。通过将目标检测转换为语言建模任务,我们的方法在很大程度上简化了检测pipeline,消除了现代检测算法中的大部分专业化。虽然在具有挑战性的COCO数据集上,它与建立良好的基线相比取得了有竞争力的结果,但架构和训练过程仍然可以进行优化,以提高其性能。我们认为,所提出的Pix2Seq框架不仅适用于目标检测,还可以应用于其他产生低带宽输出的视觉任务,其中输出可以表示为一个相对简洁的离散token序列(如关键点检测、图像字幕、视觉问答)。为此,我们希望将Pix2Seq扩展为一个通用和统一的接口,以解决各种各样的视觉任务。此外,目前训练Pix2Seq的方法完全是基于人类注释的,我们希望减少这种依赖,让模型也能从更多的未标记数据中受益。

成为VIP会员查看完整内容
0
10

最新论文

6D pose estimation is the task of predicting the translation and orientation of objects in a given input image, which is a crucial prerequisite for many robotics and augmented reality applications. Lately, the Transformer Network architecture, equipped with a multi-head self-attention mechanism, is emerging to achieve state-of-the-art results in many computer vision tasks. DETR, a Transformer-based model, formulated object detection as a set prediction problem and achieved impressive results without standard components like region of interest pooling, non-maximal suppression, and bounding box proposals. In this work, we propose T6D-Direct, a real-time single-stage direct method with a transformer-based architecture built on DETR to perform 6D multi-object pose direct estimation. We evaluate the performance of our method on the YCB-Video dataset. Our method achieves the fastest inference time, and the pose estimation accuracy is comparable to state-of-the-art methods.

0
0
下载
预览
Top