【2021年度发展报告】基于深度学习的视觉目标检测技术综述

会员服务 ·

【2021年度发展报告】基于深度学习的视觉目标检测技术综述

2022 年 7 月 7 日 中国图象图形学学会CSIG

中国图象图形学学会和中国图象图形学报联合重磅发布2021年“图像图形学发展年度报告”综述专刊，学会15个专委会倾力之作15篇学科重要方向综述论文，梳理学科发展脉络全面展示研究现状、前沿、热点、趋势。

今日推荐综述专刊中 “基于深度学习的视觉目标检测技术综述” ，该文由中国图象图形学学会 视频图像与安全专业委员会 组织撰写。‍‍‍‍‍‍‍‍

视觉目标检测旨在定位和识别图像中存在的物体，属于计算机视觉领域的经典任务之一，也是许多计算机视觉任务的前提与基础，在自动驾驶、视频监控等领域具有重要的应用价值，受到研究人员的广泛关注。随着深度学习技术的飞速发展，目标检测取得了巨大的进展。

基于深度学习的视觉目标检测发展过程‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

【论文信息】

题目：基于深度学习的视觉目标检测技术综述

作者：曹家乐, 李亚利, 孙汉卿, 谢今, 黄凯奇, 庞彦伟

引用格式：曹家乐, 李亚利, 孙汉卿, 谢今, 黄凯奇, 庞彦伟. 2022. 基于深度学习的视觉目标检测技术综述. 中国图象图形学报, 27(6): 1697-1722. [DOI: 10.11834/jig.220069]

点击文末“阅读原文”查看论文全文

【论文看点】

1）论文总结了深度目标检测在训练和测试过程中的基本流程。训练阶段包括数据预处理、检测网络、标签分配与损失函数计算等过程，测试阶段使用经过训练的检测器生成检测结果并对检测结果进行后处理。

2）回顾基于单目相机的视觉目标检测方法，主要包括基于锚点框的方法、无锚点框的方法和端到端预测的方法等。

3）总结了目标检测中一些常见的子模块设计方法。在基于单目相机的视觉目标检测方法之后，介绍了基于双目相机的视觉目标检测方法。

4）分别对比了单目目标检测和双目目标检测的国内外研究进展情况，并展望了视觉目标检测技术发展趋势。通过总结和分析，希望能够为相关研究人员进行视觉目标检测相关研究提供参考。

【未来展望】

当前基于深度学习的目标检测技术取得了巨大成功。尽管如此，目标检测技术仍然存在极大发展空间。展望总结目标检测技术的发展趋势如下：

1）高效率的端到端目标检测。当前基于转换器Transformer的端到端目标检测技术取得了一定成功，为目标检测领域的发展注入了新的活力。相比于之前基于锚点框和无锚点框的目标检测方法，该类方法存在收敛减慢、计算资源消耗大等问题。同时，相比于卷积神经网络，Transformer在计算效率等方面存在一定的劣势。近期，相关研究工作Deformable DETR和TSP-FCOS(transformer-based set prediction with FCOS)在一定程度上缓解了这些问题，但是如果设计高效率的Transformer编解码网络乃至Transformer基础网络进行端到端目标检测仍是未来需要研究的内容之一。

2）基于自监督学习的目标检测。自监督学习在大规模图像分类任务上取得了与全监督学习相当的分类性能。自监督学习用于图像分类任务的前提假设是图像内容被单一物体主导。与图像分类任务不同，目标检测任务中存在数量、尺度不确定的若干物体。因此，如何更好地将自监督学习间接或直接用于目标检测是一个挑战性问题。

3）长尾分布目标检测。当前目标检测方法大多面向物体检测数据库MS COCO(https://cocodataset.org/)和PASCAL VOC

(http://www.host.robots.ox.ac.uk/pascal/VOC)。这两个数据库对于物体的类别有限且不同类别的目标相对均衡充足。然而，现实世界中，物体的类别数量十分庞大且不同类别的物体数量存在极度不平衡, 呈现长尾分布现象。

4）小样本、零样本目标检测。小样本、零样本目标检测主要关注如何提升训练样本较少甚至没有的物体类别在测试过程中的检测性能。目标检测方法在小样本或零样本情况下的检测能力是通用性的重要标志，是开放世界目标检测必备的能力。因此，小样本、零样本目标检测具有重要的研究价值。

5）大规模双目目标检测数据集。缺少大规模、高质量双目标注的公开数据集，是当前双目目标检测面临的主要挑战之一。双目目标检测数据集不仅需要标注物体的2维、3维信息，而且需要标注视差、相机参数等。此外，当前很多方法使用了雷达点云、语义分割和实例分割等额外标注信息。因此，建立大规模的双目视觉数据集，并提供高质量的双目标注、完善的评价体系以及开放的测试平台能够为未来双目目标检测发展提供基础性支撑。

6）弱监督双目目标检测。建立大规模高质量的双目目标检测数据集是一个复杂且昂贵的系统工程。研究如何在没有高质量双目标注的情况下利用双目数据实现精准3维目标检测十分必要。因此，弱监督的双目目标检测是一个十分重要且具有挑战性的研究方向。

【作者简介】

曹家乐，天津大学副研究员，主要研究方向包括目标检测、语义分割、深度学习等。

E-mail:connor@tju.edu.cn

庞彦伟，通信作者，天津大学教授，主要研究方向包括目标检测、图像增强、医学影像分析、深度学习等。

E-mail：pyw@tju.edu.cn

李亚利，清华大学助理研究员，主要研究方向包括：目标检测、场景理解、视觉认知等。

E-mail：liyali13@tsinghua.edu.cn

孙汉卿，天津大学博士生，主要研究方向为目标检测、双目视觉、深度学习等。

E-mail：HQSun@tju.edu.cn

谢今，重庆大学副教授，主要研究方向包括目标检测、图像增强、深度学习等。

E-mail：jinxie@tju.edu.cn

黄凯奇，中国科学院自动化研究所研究员，主要研究方向包括计算机视觉、模式识别、智能视觉监控、人的认知信息处理等。

E-mail：kaiqi.huang@ia.ac.cn

中国图象图形学学会视频图像与安全专委会为视频图像与安全领域的研究人员、专家学者和企业技术人员提供一个交流平台，通过该平台汇聚对该领域感兴趣的研究者和应用者，使得大家能够研究、探讨、交流各自技术和知识，共同探索视频图像与安全领域未来的发展。本专委会计划组织起本领域的专家、学者，培养本领域技术人才，举行多种学术研讨活动，推进产学政研企一体化和融合发展。同时，本专委会将积极参与本领域相关行业标准和国家标准的制定，并为政府部门提供相关技术咨询。

主任	王生进	清华大学	教授
副主任	陈朝武	公安部第一研究所	研究员
	马思伟	北京大学	教授
	黄凯奇	中国科学院自动化研究所	研究员
秘书长	马洪兵	清华大学	研究员