基于深度学习的视觉多目标跟踪算法综述

2021 年 4 月 15 日 专知

视觉多目标跟踪是计算机视觉领域的热点问题，然而，场景中目标数量的不确定、目标之间的相互遮挡、目标特征区分度不高等多种难题导致了视觉多目标跟踪现实应用进展缓慢。近年来，随着视觉智能处理研究的不断深入，涌现出多种多样的深度学习类视觉多目标跟踪算法。在分析了视觉多目标跟踪面临的挑战和难点基础上，将算法分为基于检测跟踪（Detection-Based-Tracking，DBT）、联合检测跟踪（Joint-Detection-Tracking，JDT）两大类及六个子类，研究不同类别算法的优缺点。分析表明，DBT类算法结构简单，但算法各子环节的关联度不高，JDT类算法融合多模块联合学习，在多项跟踪评价指标中占优。DBT类算法中特征提取模块是解决目标遮挡问题的关键，但损失了算法速度，JDT类算法对检测模块更为依赖。目前，多目标跟踪跟踪总体是从DBT类算法向JDT发展，分阶段实现算法准确度与速度的均衡。提出多目标跟踪算法未来在数据集、各子模块、具体场景应用等方面的发展方向。

随着人工智能技术的飞速发展，基于计算机视觉技术的智能监控系统、自动驾驶领域较以往取得了重大的突破，进一步减少了人力资源的浪费，提高了安防和交通领域的安全性。视觉多目标跟踪技术是这些领域中的关键基础性技术之一，视觉多目标跟踪算法的准确鲁棒性对于进一步提升高层智能应用的安全有效性具有重要意义。然而，当前视觉多目标跟踪技术还面临着较大的挑战，首先，视觉多目标跟踪需要解决单目标跟踪中存在的诸如目标形变、场景环境变化等挑战之外，还面临着由于目标数量不确定所带来的实时目标数量更新及维持目标各自身份（Identity，ID）的任务，因此视觉多目标跟踪还需要处理更为复杂关键的问题诸如：目标数量不确定、频繁目标遮挡、同类目标的相似度区分等。具体来说，在安防监控和自动驾驶应用中，目标频繁进出视野是普遍且正常的行为，这就导致了多目标跟踪所面对的目标数量是不确定的，这就要求多目标跟踪算法必须具备实时检测定位场景中出现的感兴趣目标数量。在场景复杂的情况下，背景对于目标的遮挡，以及目标与目标的遮挡会造成目标遮挡再出现时目标身份切换(ID Switch，IDs)，这就要求算法必须提取到鲁棒的目标特征，在短时和长时的遮挡过后，保持遮挡前后目标 ID 一致性。多目标跟踪任务要求维持同一目标的 ID，同类目标表观相似度较高且具备相似的行为，对稳定维持正确目标 ID 带来了进一步的挑战，算法必须具备提取同类目标可分性特征。

视觉多目标跟踪的目的是利用数字图像处理技术稳定跟踪图像序列中的多个感兴趣目标，得到各个目标在每一时刻正确位置。近几年随着基于深度学习检测算法的精度较传统算法性能大幅度提高，视觉多目标跟踪随之取得了较大的突破。基于深度学习的视觉多目标跟踪算法的应用基本覆盖了空海地多个典型场景[1-3]，但较为详细的关于视觉多目标跟踪综述论文较少，已有的相关综述[4-5]一部分是基于传统方法的在雷达领域应用较多且运算比较复杂的数据关联算法，与当前主流的多目标跟踪方法存在较大的差异，另一部分较新的关注了基于深度学习的视觉多目标跟踪方法，重点是基于检测的多目标跟踪方法[6-7]。本文根据视觉多目标跟踪框架的不同，将基于深度学习的视觉多目标跟踪方法分为 DBT 与 JDT 两类算法展开论述,阐述深度学习在两种框架中的模块功能及优缺点，结合公开数据集对比分析基于深度学习的视觉多目标跟踪方法，通过进一步提升检测器性能、更好地在多目标跟踪任务中融合单目标跟踪、拓展基于深度学习的数据关联等方面提升多目标跟踪的性能。

本文的其余部分的安排如下。第 1 节首先对基于深度学习的视觉多目标跟踪技术及相关数据集进行总体概述，然后在第 2 节和第 3 节分别阐述基于深度学习的 DBT 与 JDT 两种视觉多目标跟踪框架，第 4 节对近年来在公开数据集中性能优异的视觉多目标跟踪方法进行实验比较分析，第 5 节基于前面的讨论，对未来可能研究方向进行展望。