论文 | 基于RNN的在线多目标跟踪

2017 年 12 月 27 日 七月在线实验室

论文：OnLine Multi-Target Tracking Using Recurrent Neural Networks

原文链接：https://arxiv.org/pdf/1604.03635.pdf

背景介绍

　　无限制环境下的多目标跟踪仍然是一个具有挑战性的任务。即使经过几十年的研究，但跟踪的准确性远远达不到人类的标准。随着近些年来，深度学习的兴起，与多目标跟踪的有关的工作依然很少。这篇文章，我们在实际场景中对多个目标进行在线跟踪迈出了重要的一步。我们实现了一个基于深度学习的端到端的多目标跟踪系统。

模型介绍

2.1 符号约定

• , 在一个时间点，包含所有目标状态的矩阵

• D=4，D表示目标的位置信息种类，本文中用到的是目标的bounding box 坐标

• N , 表示跟踪的目标数

• , 每一帧中所有测量信息的矩阵。其中M表示每一帧中最大检测数目。

• , 可能性矩阵，表示某个检测器对某个目标的检测分布。

2.2 使用RNN实现多目标跟踪

　　我们将多目标跟踪问题分解为两个部分，单目标状态的预测和更新，与其他目标的关联。

2.2.1 Target Motion

　　首先我们来看第一个部分，状态的更新与预测。我们使用了下图1所示的时序RNN模型来学习目标的时序动态模型，并依此来决定目标的出现与消失。

图1左边：基于RNN的用于状态预测，状态更新和目标存在概率估计的的模型。右边：基于LSTM的数据关联模型。

　　在 t 时刻，RNN输出下个时间步的四个值。矩阵, 代表所有目标的预测状态。矩阵代表所有的更新后的状态，,代表每个目标与真实轨迹的相似度，,代表和的绝对值差。下一帧的预测值由（当前状态），（当前可能性）（测量值）（数据关联）共同决定。这个模块由以下三个部分：

Prediction 学习一个复杂的动态模型，在没有测量的情况下预测目标运动。
Update 给定目标测量状态的基础上，纠正目标状态分布。
Birth / death 给定目标状态，测量值，数据联系的基础上，学习识别跟踪的启动和终止。

　　下一帧的预测值仅仅取决于当前状态和网络的隐层状态。一旦下一帧的数据联系可用，当前状态就会更新。最后，所有的测量状态和预测状态将以这样的形式被联系起来：。与此同时，下一帧图像中目标存在的可能性将被计算出来。

　　是预测值，为真值。为了提高可读性，我们在此省略了时间索引。在实践中，一个训练样本的损失值为序列中的所有帧上的平均值。

Loss 包含四个部分，首先我们来看前两个部分。假设目标的数量是固定的，我们的目标是学习出预测真实轨迹的模型。这个目标适用于这两种情况，没有测量值的情况下预测目标的运动，以及根据新的测量值来纠正模型。为此，我们最小化的目标是，状态预测值和状态更新值与真实值之间的均方差（MSE）。

2.2.2 Initiation and Termination

　　在现实世界中跟踪多个目标可能会出现目标的消失和重新出现。我们通过一个额外的变量来捕获时变的目标数量。这个变量表示，在某个特定时刻，目标存在的概率。在实验中，我们将低于0.6的值标记为目标消失。

　　公式三种的后两部分用来学习预测每个目标在某个时刻是否存在。这里我们使用了binary cross entropy（BCE）loss：

　　单独使用BCE loss 时，RNN将很难做出预测。这将会在跟踪过程中丢失目标。因此，我们添加了一个平滑变量 ,从而基本上能够消除连续变化的绝对值变化。

2.2.3 Data Association with LSTMs

　　可以说，数据关联（即为每个目标唯一地分类相应测量的任务）是跟踪多个目标的最具挑战性的部分。在本节中，我们提出了一个基于LSTM的架构，能够从训练数据中学习，解决这个问题。我们的模型如图所示，主要思想是利用LSTM的时序功能，一步一步地预测每个目标。

表示真值，表示目标 i 为 j 的可能性。

实验验证

3.1 训练

网络大小

• 状态预测和跟踪管理的RNN网络包含一层和300个隐藏单元。

• 数据关联模块更复杂一点。LSTM模块包含两层和500个隐藏单元。

优化方法

• RMSprop

• 学习率初始为0.0003，随后每20000次迭代降低5%

• 最大迭代次数为200000

• 训练时间单CPU为30个小时

数据

　　RNN用大约100K的20帧长的序列进行训练。数据被分成每批10个样品的小批量，并归一化到图像尺寸 [-0.5,0.5]的范围。我们试验了更流行的零均值和单位方差数据的正态分布，但是发现基于图像尺寸的固定分辨率数据具有更好的性能。

3.2 实验结果

　　我们在MOT 2015数据集上测试了上述的方法。行人数据集是22个视频序列的集合（训练和测试各11个），这些数据在目标运动，相机运动，视角和人员密度方面都有明显的变化。测试结果如下：

图3 MOT 数据集上目标跟踪测试结果

图4 行人跟踪测试结果，不同颜色的框代表不同的人

模型总结

　　我们提出了一种基于神经网络的模型来解决现实环境中的数据关联和轨迹估计问题。目前来看，这是首次将递归神经网络应用在实时多目标跟踪中。实验显示，递归神经网络能够学习实际环境中复杂的工作模型。

登录查看更多

相关内容

多目标跟踪

关注 5

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

59+阅读 · 2020年6月24日

基于深度学习的表面缺陷检测方法综述

专知会员服务

94+阅读 · 2020年5月31日

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

专知会员服务

136+阅读 · 2020年3月8日

【综述】金融领域中的深度学习，附52页论文下载

专知会员服务

165+阅读 · 2020年2月27日

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

专知会员服务

110+阅读 · 2020年2月22日

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

专知会员服务

78+阅读 · 2020年2月3日

【基于元学习的推荐系统】5篇相关论文

专知会员服务

88+阅读 · 2020年1月20日

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

深度学习视频中多目标跟踪：论文综述

专知会员服务

94+阅读 · 2019年10月13日

【文献综述】视频多目标跟踪中的深度学习方法，38页pdf

专知会员服务

53+阅读 · 2019年8月1日

【论文笔记】基于门控图网络实现图到序列学习

专知

56+阅读 · 2019年10月5日

【论文笔记】基于LSTM的问答对排序

专知

12+阅读 · 2019年9月7日

视频中的多目标跟踪【附PPT与视频资料】

人工智能前沿讲习班

30+阅读 · 2018年11月29日

SFFAI8 报名通知 | 图像翻译 & 视频多目标跟踪专题【附相关论文精选】

人工智能前沿讲习班

8+阅读 · 2018年11月5日

视觉物体跟踪新进展：让跟踪器读懂目标语义信息

微软研究院AI头条

7+阅读 · 2018年9月13日

基于LSTM深层神经网络的时间序列预测

论智

21+阅读 · 2018年9月4日

基于 Keras 用 LSTM 网络做时间序列预测

R语言中文社区

21+阅读 · 2018年8月6日

论文浅尝 | 基于RNN与相似矩阵CNN的知识库问答

开放知识图谱

8+阅读 · 2018年5月29日

论文 | 深度学习实现目标跟踪

七月在线实验室

48+阅读 · 2017年12月8日

专栏 | 9 篇顶会论文解读推荐中的序列化建模：Session-based Neural Recommendation

机器之心

7+阅读 · 2017年11月12日

Efficiently Embedding Dynamic Knowledge Graphs

Arxiv

14+阅读 · 2019年10月15日

Symbolic Priors for RNN-based Semantic Parsing

Arxiv

3+阅读 · 2018年9月20日

Learning to Update for Object Tracking

Arxiv

8+阅读 · 2018年6月19日

Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN

Arxiv

3+阅读 · 2018年4月28日

Variational Knowledge Graph Reasoning

Arxiv

15+阅读 · 2018年4月5日

Recurrent Autoregressive Networks for Online Multi-Object Tracking

Arxiv

9+阅读 · 2018年3月4日

SEARNN: Training RNNs with Global-Local Losses

Arxiv

5+阅读 · 2018年1月29日

Deep Neural Networks In Fully Connected CRF For Image Labeling With Social Network Metadata

Arxiv

6+阅读 · 2018年1月27日

Continuous Time Dynamic Topic Models

Arxiv

3+阅读 · 2015年5月16日

Content based video retrieval

Arxiv

3+阅读 · 2012年11月20日

VIP会员