【导读】随着近几年来AI技术的飞速发展,人们将计算机视觉技术应用于自动驾驶,使得自动驾驶的应用变得可行,很大程度地推进了自动驾驶技术的发展。本文介绍一篇关于自动驾驶计算机视觉的全面综述,覆盖了该领域相关的问题、数据集和最先进的技术。

近几年来,我们目睹了AI相关领域取得的巨大的进步,如计算机视觉、机器学习、自动驾驶等。随着这些领域的飞速发展,初学者很难了解领域最新的进展。在自动驾驶计算机视觉领域,尽管出现了一些关于特定子问题的综述,但尚未发布关于问题、数据集和方法的全面和综合的综述。

综述《Computer Vision for Autonomous Vehicles: Problems, Datasets and State of the Art》试图通过提供对目前最先进的相关技术和数据集的调研来缩小人们对该领域的认知鸿沟。综述既包括了已有的最相关的文献,也包含了一些特殊主题目前最先进的成果,如识别、重建、运动估计、跟踪、场景理解和自动驾驶端到端学习。综述还包含了对最先进技术在KITTI、MOT和Cityscapes等几个具有挑战性的基准数据集上的性能的分析。

另外,该综述还讨论了一些开放问题和目前的研究挑战。综述还提供了一个网站,方便人们访问相关的主题,以及提供额外的信息。

综述首先提供了自动驾驶的简要历史,然后介绍了相机模型和校准技术。接着,综述介绍了与自动驾驶相关的数据集(重点关注与感知相关的数据集)、相关的感知任务和最新的解决方法。尤其是,综述回顾了目标检测、目标跟踪、语义(实体)分割、重建、运动估计和场景理解。每个章节包含了问题定义、重要方法和主要设计选择、顶尖技术在流行数据集上的定性和定量分析以及关于领域最先进技术的讨论。最终,综述提供了关于最先进端到端自动驾驶模型的概览。

综述的目录大致如下:

  • 简介
  • 自动驾驶的历史
  • 感知器
  • 数据集和基准
  • 目标检测
  • 目标跟踪
  • 语义分割
  • 语义实体分割
  • 立体
  • 多视角3D重建
  • 光流
  • 3D场景流
  • 地图、定位和Ego-Motion估计
  • 场景理解
  • 自动驾驶的端到端学习
  • 总结
成为VIP会员查看完整内容
0
59

相关内容

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

自动驾驶一直是人工智能应用中最活跃的领域。几乎在同一时间,深度学习的几位先驱取得了突破,其中三位(也被称为深度学习之父)Hinton、Bengio和LeCun获得了2019年ACM图灵奖。这是一项关于采用深度学习方法的自动驾驶技术的综述。我们研究了自动驾驶系统的主要领域,如感知、地图和定位、预测、规划和控制、仿真、V2X和安全等。由于篇幅有限,我们将重点分析几个关键领域,即感知中的二维/三维物体检测、摄像机深度估计、数据、特征和任务级的多传感器融合、车辆行驶和行人轨迹的行为建模和预测。

https://arxiv.org/abs/2006.06091

成为VIP会员查看完整内容
1
55

对自然图像中的文本进行检测和识别是计算机视觉领域的两个主要问题,在体育视频分析、自动驾驶、工业自动化等领域都有广泛的应用。他们面临着共同的具有挑战性的问题,即文本如何表示和受几种环境条件的影响的因素。当前最先进的场景文本检测和/或识别方法利用了深度学习体系结构的进步,并取得了在处理多分辨率和多方向文本时基准数据集的卓越准确性。然而,仍然有几个挑战影响自然图像中的文本,导致现有的方法表现不佳,因为这些模型不能泛化到看不见的数据和不足的标记数据。因此,不同于以往的综述,这个综述的目标如下: 首先,提供读者不仅回顾最近场景文字检测和识别方法,但也用一个统一的评估框架来呈现广泛开展实验的结果, 评估pre-trained模型选择的方法上具有挑战性的情况下,这些技术适用于相同的评估标准。其次,识别在自然图像中检测或识别文本存在的几个挑战,即平面内旋转、多方向和多分辨率文本、透视失真、光照反射、部分遮挡、复杂字体和特殊字符。最后,本文还提出了这一领域的潜在研究方向,以解决场景文本检测和识别技术仍面临的一些挑战。

成为VIP会员查看完整内容
0
44

3D点云学习( Point Clouds)作为近年来的研究热点之一,受到了广泛关注,每年在各大会议上都有大量的相关文章发表。当前,点云上的深度学习变得越来越流行,人们提出了许多方法来解决这一领域的不同问题。国防科技大学郭裕兰老师课题组新出的这篇论文对近几年点云深度学习方法进行了全面综述,是第一篇全面涵盖多个重要点云相关任务的深度学习方法的综述论文,包括三维形状分类、三维目标检测与跟踪、三维点云分割等,并对点云深度学习的机制和策略进行全面的归纳和解读,帮助读者更好地了解当前的研究现状和思路。也提供了现有方法在几个可公开获得的数据集上的全面比较,最后也介绍了未来的研究方向。

【摘要】点云学习近年来受到越来越多的关注,因为它在许多领域都有广泛的应用,比如计算机视觉、自动驾驶和机器人技术。作为人工智能的主要技术之一,深度学习已经成功地用于解决各种二维视觉问题。然而,由于使用深度神经网络处理点云所面临的独特挑战,对点云的深度学习仍处于起步阶段。最近,点云上的深度学习变得越来越流行,人们提出了许多方法来解决这一领域的不同问题。为了激发未来的研究,本文对点云深度学习方法的最新进展进行了综述。它涵盖了三个主要任务,包括三维形状分类,三维目标检测和跟踪以及三维点云分割。我们还提供了一些可公开获得的数据集的比较结果,以及有见地的观察和启发性的未来研究方向。

引言

3D数据在不同的领域有许多应用,包括自动驾驶、机器人、遥感、医疗和设计行业[4]。近年来,深度学习技术在计算机视觉、语音识别、自然语言处理(NLP)、生物信息学等研究领域占据主导地位。但是,在三维点云上进行深度学习仍然面临数个重大挑战[5],例如数据集规模小,维数高和三维点云的非结构化性质。在此基础上,本文重点分析了用于处理三维点云的深度学习方法。

一些公开的数据集也被发布,例如ModelNet [6],ShapeNet [7],ScanNet [8],Semantic3D [9]和KITTI Vision Benchmark Suite [10]。这些数据集进一步推动了对三维点云的深度学习研究,提出了越来越多的方法来解决与点云处理相关的各种问题,包括三维形状分类、三维目标检测与跟踪、三维点云分割等。

这篇论文是第一个专门针对点云的深度学习方法的综述。此外,论文全面涵盖了分类,检测,跟踪和分割等不同应用。图1显示了三维点云的现有深度学习方法的分类。

图1:三维点云深度学习方法分类。

这项工作的主要贡献可以概括如下:

  • 1)据我们所知,这是第一篇全面涵盖多个重要点云相关任务的深度学习方法的综述论文,包括三维形状分类、三维目标检测与跟踪、三维点云分割等。

  • 2)相对于已有的综述[11],[12],我们特别关注三维点云的深度学习方法,而不是所有类型的三维数据。

  • 3)本文介绍了点云深度学习的最新进展。因此,它为读者提供了最先进的方法。

  • 4)提供了现有方法在几个可公开获得的数据集上的全面比较(例如,表1、2、3、4),并提供了简要的总结和深入的讨论。

本文的结构如下。第2节回顾了三维形状分类的方法。第3节概述了现有的三维目标检测和跟踪方法。第4节介绍了点云分割的方法,包括语义分割、实例分割和部件分割。最后,第5节总结了论文。

论文还在以下网址上提供了定期更新的项目页面:

https://github.com/QingyongHu/SoTA-Point-Cloud

图2:三维形状分类网络的时间顺序概览。

图3:PointNet的体系结构。

图4:点的局部邻居的连续和离散卷积的图解。(a)代表一个局部邻居;(b)和(c)分别表示三维连续卷积和离散卷积。

图5:基于图的网络的图解。

表1:在ModelNet10/40基准上比较三维形状分类结果。这里,我们只关注基于点的网络,“#params”表示相应模型的参数数量。“OA”表示总体精度,“mAcc”表示表中的平均精度。符号“-”表示结果不可用。

图6:按时间顺序概述的最相关的基于深度学习的三维目标检测方法。

图7:三类三维目标检测方法的典型网络。从上到下:(a)基于多视图,(b)基于分割,(c)基于视锥的方法。

表2:在KITTI测试三维检测基准上的三维目标检测结果对比。

表3:在KITTI test BEV检测基准上三维目标检测结果对比。

图8:按时间顺序概述了一些最相关的基于深度学习的点云语义分割方法。

图9:基于投影方法的中间表示图。

图10:PointNet++[27]框架的示意图。

图11:有代表性的三维点云实例分割方法的年代概述。

未来方向

表4展示了现有方法在公共基准测试上的结果,包括S3DIS[176]、Semantic3D[9]、ScanNet[102]、SemanticKITTI[177]。需要进一步研究的问题有:

  • 基于点的网络是最常被研究的方法。然而,点表示自然不具有显式的邻近信息,现有的大多数基于点的方法不得不借助于昂贵的邻近搜索机制(如KNN[52]或ball query [27])。这从本质上限制了这些方法的效率,因为邻居搜索机制既需要很高的计算成本,又需要不规则的内存访问[214]。

  • 从不平衡数据中学习仍然是点云分割中一个具有挑战性的问题。虽然有几种的方法取得了显著的综合成绩[42]、[170]、[182],但它们在类标很少的情况下表现仍然有限。例如,RandLA-Net[95]在Semantic3D的reduced-8子集上获得了76.0%的整体IoU,而在hardscape类上获得了41.1%的非常低的IoU。

  • 大多数现有的方法[5]、[27]、[52]、[170]、[171]都适用于小点云(如1m*1m,共4096个点)。在实际中,深度传感器获取的点云通常是巨大的、大规模的。因此,有必要进一步研究大规模点云的有效分割问题。

  • 已有少数文献[145]、[146]、[167]开始研究动态点云的时空信息。预期时空信息可以帮助提高后续任务的性能,如三维目标识别、分割和完成。

表4:S3DIS(包括Area5和6-fold cross validation)[176]、Semantic3D(包括semantic-8和reduced-8子集)[9]、ScanNet[8]和SemanticKITTI[177]数据集的语义分割结果对比。

结论

本文介绍了如今最先进的三维理解方法,包括三维形状分类,三维目标检测和跟踪,以及三维场景和目标分割。对这些方法进行了全面的分类和性能比较。介绍了各种方法的优缺点,并提出了今后的研究方向。

成为VIP会员查看完整内容
0
59

题目: A survey of deep learning techniques for autonomous driving

简介: 本文目的是研究自动驾驶中深度学习技术的最新技术。首先介绍基于AI的自动驾驶架构、CNN和RNN、以及DRL范例。这些方法为驾驶场景感知、路径规划、行为决策和运动控制算法奠定基础。该文研究深度学习方法构建的模块化“感知-规划-执行”流水线以及将传感信息直接映射到转向命令的端到端系统。此外,设计自动驾驶AI架构遇到的当前挑战,如安全性、训练数据源和计算硬件等也进行了讨论。该工作有助于深入了解深度学习和自动驾驶AI方法的优越性和局限性,并协助系统的设计选择。

成为VIP会员查看完整内容
0
38

视觉目标检测(Object Detection)作为近年来的研究热点之一,受到了广泛关注,每年在计算机视觉三大会议(ICCV, CVPR, ECCV)上大量相关文章发表。遥感图像中的物体检测越来越受到重视,但是目前对遥感图像中目标检测的数据集和基于深度学习的方法的综述还不够完善。近期,西北工业大学Gong Cheng (程塨)教授等人发布了《Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark》这篇综述,概括了近年来计算机视觉和遥感观测领域基于深度学习的目标检测研究进展。然后,也提出了一个大规模、公开可用的光学遥感图像目标检测基准,将其命名为DIOR(近期会Open)。数据集包含23463张图像和190288个实例,覆盖20个目标象类,评估了DIOR数据集上几种最先进的方法,为未来的研究奠定了基础。

Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark

【摘要】最近研究者们已作出大量努力,提出光学遥感图像中的各种目标检测方法。然而,目前对光学遥感图像中目标检测的数据集和基于深度学习的方法的综述还不够完善。此外,现有的数据集大多存在一些不足之处,如图像和目标类别数量较少,图像多样性和变异性不足。这些局限性极大地影响了基于深度学习的目标检测方法的发展。本文综述了近年来计算机视觉和地球观测领域基于深度学习的目标检测研究进展。然后,我们提出了一个大规模、公开可用的光学遥感图像目标检测基准,我们将其命名为DIOR。数据集包含23463张图像和190288个实例,覆盖20个目标象类。我们提出的DIOR数据集1)在目标类别、目标实例数量和总图像数量上都是大规模的; 2)具有大范围的目标尺度变化,不仅在空间分辨率方面,而且在跨目标的类间和类内尺度变化方面; 3)由于成像条件、天气、季节、成像质量的不同,成像结果差异较大; 4)具有较高的类间相似性和类内多样性。我们提出的基准可以帮助研究人员开发和验证他们的数据驱动方法。最后,我们评估了DIOR数据集上几种最先进的方法,为未来的研究奠定了基础。

成为VIP会员查看完整内容
0
46

题目: Deep Learning in Video Multi-Object Tracking: A Survey

简介: 多对象跟踪(MOT)的问题在于遵循序列中不同对象(通常是视频)的轨迹。 近年来,随着深度学习的兴起,提供解决此问题的算法得益于深度模型的表示能力。 本文对采用深度学习模型解决单摄像机视频中的MOT任务的作品进行了全面的调查。 确定了MOT算法的四个主要步骤,并对这些阶段的每个阶段如何使用深度学习进行了深入的回顾。 还提供了对三个MOTChallenge数据集上提出的作品的完整实验比较,确定了表现最好的方法之间的许多相似之处,并提出了一些可能的未来研究方向。

成为VIP会员查看完整内容
DEEP LEARNING IN VIDEO MULTI-OBJECT TRACKING.pdf
0
32
小贴士
相关论文
Zixin Luo,Lei Zhou,Xuyang Bai,Hongkai Chen,Jiahui Zhang,Yao Yao,Shiwei Li,Tian Fang,Long Quan
4+阅读 · 2020年3月23日
Wenqi Fan,Yao Ma,Qing Li,Yuan He,Eric Zhao,Jiliang Tang,Dawei Yin
12+阅读 · 2019年11月23日
Hierarchy Parsing for Image Captioning
Ting Yao,Yingwei Pan,Yehao Li,Tao Mei
6+阅读 · 2019年9月10日
Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation
Chenxi Liu,Liang-Chieh Chen,Florian Schroff,Hartwig Adam,Wei Hua,Alan Yuille,Li Fei-Fei
5+阅读 · 2019年1月10日
Wenhui Zhang,Tejas Mahale
3+阅读 · 2018年12月13日
Monocular Object and Plane SLAM in Structured Environments
Shichao Yang,Sebastian Scherer
7+阅读 · 2018年9月10日
Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network
Daan de Geus,Panagiotis Meletis,Gijs Dubbelman
4+阅读 · 2018年9月6日
CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving
Xiaodan Liang,Tairui Wang,Luona Yang,Eric Xing
4+阅读 · 2018年7月10日
Hierarchical Graph Representation Learning with Differentiable Pooling
Rex Ying,Jiaxuan You,Christopher Morris,Xiang Ren,William L. Hamilton,Jure Leskovec
7+阅读 · 2018年6月26日
Thanh-Toan Do,Anh Nguyen,Ian Reid
3+阅读 · 2018年3月4日
Top