Video-based person re-identification (reID) aims to retrieve person videos with the same identity as a query person across multiple cameras. Spatial and temporal distractors in person videos, such as background clutter and partial occlusions over frames, respectively, make this task much more challenging than image-based person reID. We observe that spatial distractors appear consistently in a particular location, and temporal distractors show several patterns, e.g., partial occlusions occur in the first few frames, where such patterns provide informative cues for predicting which frames to focus on (i.e., temporal attentions). Based on this, we introduce a novel Spatial and Temporal Memory Networks (STMN). The spatial memory stores features for spatial distractors that frequently emerge across video frames, while the temporal memory saves attentions which are optimized for typical temporal patterns in person videos. We leverage the spatial and temporal memories to refine frame-level person representations and to aggregate the refined frame-level features into a sequence-level person representation, respectively, effectively handling spatial and temporal distractors in person videos. We also introduce a memory spread loss preventing our model from addressing particular items only in the memories. Experimental results on standard benchmarks, including MARS, DukeMTMC-VideoReID, and LS-VID, demonstrate the effectiveness of our method.


翻译:以视频为基础的个人再识别(reID)旨在检索与多个相机的询问人相同身份的个人视频。 个人视频中的空间和时间分流器,例如背景模糊和部分隔板,分别使这项任务比基于图像的人再识别(reID)更具挑战性。 我们观察到,空间分流器在特定地点始终存在,时间分流器显示几种模式,例如,在最初几个框架中出现部分隔离,这种模式提供了信息提示,用于预测哪些框架应侧重于多个相机(即,时间关注),在此基础上,我们引入了一个新的空间和时空记忆网络(STMN),为空间分流器存储了空间内存特征,这些特征经常在视频框架中出现,而时间内存则节省了人们对典型时间模式的注意。 我们利用空间和时间记忆来改进框架层面的人的表述,并将经过改进的框架层面特征汇总成一个顺序级别的个人代表,分别有效地处理个人视频中的空间和时间分流器。 我们还引入了一种防止记忆扩展损失的模型,包括MAR-MIS标准的模型,只针对个人记忆中的磁带的模型、MAR-MIS标准的模型,只标、MIS标准的模型、MIS标准的实验性模型,只标的模型、MIS-MR-MMMMMMU的实验结果。

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
注意力机制综述
专知会员服务
83+阅读 · 2021年1月26日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
110+阅读 · 2020年6月10日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
147+阅读 · 2019年10月27日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
revelation of MONet
CreateAMind
5+阅读 · 2019年6月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
PTGAN for Person Re-Identification
统计学习与视觉计算组
4+阅读 · 2018年9月10日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
VIP会员
相关VIP内容
注意力机制综述
专知会员服务
83+阅读 · 2021年1月26日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
110+阅读 · 2020年6月10日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
147+阅读 · 2019年10月27日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
revelation of MONet
CreateAMind
5+阅读 · 2019年6月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
PTGAN for Person Re-Identification
统计学习与视觉计算组
4+阅读 · 2018年9月10日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Top
微信扫码咨询专知VIP会员