The ability to recognize, localize and track dynamic objects in a scene is fundamental to many real-world applications, such as self-driving and robotic systems. Yet, traditional multiple object tracking (MOT) benchmarks rely only on a few object categories that hardly represent the multitude of possible objects that are encountered in the real world. This leaves contemporary MOT methods limited to a small set of pre-defined object categories. In this paper, we address this limitation by tackling a novel task, open-vocabulary MOT, that aims to evaluate tracking beyond pre-defined training categories. We further develop OVTrack, an open-vocabulary tracker that is capable of tracking arbitrary object classes. Its design is based on two key ingredients: First, leveraging vision-language models for both classification and association via knowledge distillation; second, a data hallucination strategy for robust appearance feature learning from denoising diffusion probabilistic models. The result is an extremely data-efficient open-vocabulary tracker that sets a new state-of-the-art on the large-scale, large-vocabulary TAO benchmark, while being trained solely on static images. Project page: https://www.vis.xyz/pub/ovtrack/


翻译:能够识别、定位和跟踪场景中的动态物体对于许多现实世界的应用,如自动驾驶和机器人系统,至关重要。然而,传统的多目标跟踪(MOT)基准仅依赖于少数物体类别,这些类别很难代表实际世界中可能遇到的众多物体。这使得当代MOT方法仅限于一个小型预定义对象类别集合。在本文中,我们通过处理一项新颖的任务,即开放词汇MOT,来解决这一限制,旨在对超过预定义培训类别的跟踪进行评估。我们进一步开发了OVTrack,一种开放词汇跟踪器,它能够跟踪任意物体类别。其设计基于两个关键因素:首先,通过知识蒸馏利用视觉-语言模型进行分类和关联;其次,利用数据虚构策略从去噪扩散概率模型中进行稳健的外观特征学习。结果是一种极其数据高效的开放词汇跟踪器,在仅使用静态图像进行训练的情况下,在大规模、大词汇的TAO基准测试中创下了新的最新成果。项目页面:https://www.vis.xyz/pub/ovtrack/

0
下载
关闭预览

相关内容

【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
11+阅读 · 2019年12月27日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
【泡泡一分钟】学习紧密的几何特征(ICCV2017-17)
泡泡机器人SLAM
20+阅读 · 2018年5月8日
【推荐】SLAM相关资源大列表
机器学习研究会
10+阅读 · 2017年8月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Deep Learning in Video Multi-Object Tracking: A Survey
Arxiv
55+阅读 · 2019年7月31日
VIP会员
相关VIP内容
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
11+阅读 · 2019年12月27日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员