不需要驾驶员登机驾驶的各式遥控飞行器。

VIP内容

摘要

无人机(UAV)由于有效且灵活的数据采集,近年来已成为计算机视觉(CV)和遥感(RS)领域的研究热点。由于最近深度学习(DL)的成功,许多先进的目标检测和跟踪方法已被广泛应用于与无人机相关的各种任务,例如环境监测、精准农业、交通管理。本文全面综述了基于DL的无人机目标检测与跟踪方法的研究进展和前景。具体来说,我们首先概述了挑战,统计了现有的方法,并从基于DL的模型的角度提供了解决方案,这三个研究课题分别是:来自图像的目标检测,来自视频的目标检测,来自视频的目标跟踪。利用无人机主导目标检测与跟踪相关的开放数据集,利用4个基准数据集,采用最先进的方法进行性能评估。最后,对今后的工作进行了展望和总结。本文对基于DL的无人机目标探测与跟踪方法进行了综述,并对其进一步发展提出了一些思考,以期为来自遥感领域的研究人员提供参考。

https://www.zhuanzhi.ai/paper/d2cb72aa7da469d6481f2fc9e9c6454a

引言

目标检测与跟踪作为遥感领域的重要研究课题,已广泛应用于环境监测、地质灾害检测、精准农业、城市规划等各种民用和军事任务中。传统的目标捕获方法主要来源于卫星和载人飞行器。这两种平台通常在固定轨道上运行或按照预定的路径运行,也可以根据委托的任务,如城市规划和测绘,或在恶劣和不适宜居住的环境下进行物体观测,如冰冻圈遥感,临时改变运行路线并悬停。然而,卫星和载人飞机的成本以及飞行员潜在的安全问题不可避免地限制了此类平台的应用范围。

随着微电子软硬件的发展,导航和通信技术的更新,以及材料和能源技术的突破,无人机(UAV)平台已经成为国际遥感领域的研究热点,迅速崛起。无人机遥感系统是将科技与无人机、遥感、全球定位系统(GPS)定位和惯性测量单元(IMU)姿态确定手段相结合的高科技组合。它是一个以获取低空高分辨率遥感图像为目标的专用遥感系统。与传统平台相比,无人机弥补了由于天气、时间等限制造成的信息损失。此外,无人机的高机动性使其能够灵活地采集视频数据,不受地理限制。这些数据无论在内容上还是时间上都信息量极大,目标检测与跟踪进入了大规模无人机[1]-[3]时代,在土地覆盖测绘[4]、[5]、智慧农业[6]、[7]、智慧城市[8]、交通监控[9]、灾害监控[10]等领域发挥着越来越重要的作用。

目标检测与跟踪作为计算机视觉的基本问题之一,采用了经典的基于统计的方法[11]、[12]。然而,当前海量数据影响了这些传统方法的性能,造成了特征维数爆炸的问题,存储空间和时间成本较高。由于深度神经网络(deep neural network, DL)技术[13]-[15]的出现,可以用深度复杂网络学习具有足够样本数据的层次特征表示。自2015年以来,深度神经网络已经成为无人机目标检测与跟踪的主流框架[16],[17]。图1为无人机遥感在城市区域目标检测与跟踪的示例。经典的深度神经网络主要分为两大类:两阶段网络和单阶段网络。其中,RCNN[18]、Fast RCNN[19]和Faster RCNN[20]等两阶段网络首先需要生成region proposal (RP),然后对候选区域进行分类和定位。[21] -[23]的一系列工作证明了两级网络适用于具有较高检测精度的应用。一级网络,如SSD[24]和YOLO[16],[25],[26],直接产生类概率和坐标位置,比二级网络更快。同样,也有一些更快的轻量级网络,如mobilenet SSD [27], YOLOv3 [28], ESPnet v2[29]等。因此,对高速需求的无人机遥感实际应用而言,一级快速轻量化网络是最终的赢家。但对于低分辨率的数据,如果不对图像进行预处理或对经典的神经网络结构进行修改,则无法产生良好的效果。

本文以最大起飞重量小于30公斤的无人机为研究对象,通过总结最新发表的研究成果,对基于深度学习(DL)的无人机目标检测与跟踪方法进行了全面综述,讨论了关键问题和难点问题,并描述了未来的发展领域。本文的其余部分组织如下。第二节概述了无人机的统计情况和相关出版物。第六节介绍现有的基于无人机的遥感数据集。第三至第五节综述了三个分支在基于无人机的目标检测和跟踪方面的现有基于DL的工作。第八节讨论结论。

成为VIP会员查看完整内容
0
30

最新内容

最新论文

In this work, we contribute a new million-scale Unmanned Aerial Vehicle (UAV) tracking benchmark, called WebUAV-3M. Firstly, we collect 4,485 videos with more than 3M frames from the Internet. Then, an efficient and scalable Semi-Automatic Target Annotation (SATA) pipeline is devised to label the tremendous WebUAV-3M in every frame. To the best of our knowledge, the densely bounding box annotated WebUAV-3M is by far the largest public UAV tracking benchmark. We expect to pave the way for the follow-up study in the UAV tracking by establishing a million-scale annotated benchmark covering a wide range of target categories. Moreover, considering the close connections among visual appearance, natural language and audio, we enrich WebUAV-3M by providing natural language specification and audio description, encouraging the exploration of natural language features and audio cues for UAV tracking. Equipped with this benchmark, we delve into million-scale deep UAV tracking problems, aiming to provide the community with a dedicated large-scale benchmark for training deep UAV trackers and evaluating UAV tracking approaches. Extensive experiments on WebUAV-3M demonstrate that there is still a big room for robust deep UAV tracking improvements. The dataset, toolkits and baseline results will be available at \url{https://github.com/983632847/WebUAV-3M}.

0
0
下载
预览
Top
微信扫码咨询专知VIP会员