Zero-shot video classification for fine-grained activity recognition has largely been explored using methods similar to its image-based counterpart, namely by defining image-derived attributes that serve to discriminate among classes. However, such methods do not capture the fundamental dynamics of activities and are thus limited to cases where static image content alone suffices to classify an activity. For example, reversible actions such as entering and exiting a car are often indistinguishable. In this work, we present a framework for straightforward modeling of activities as a state machine of dynamic attributes. We show that encoding the temporal structure of attributes greatly increases our modeling power, allowing us to capture action direction, for example. Further, we can extend this to activity detection using dynamic programming, providing, to our knowledge, the first example of zero-shot joint segmentation and classification of complex action sequences in a larger video. We evaluate our method on the Olympic Sports dataset where our model establishes a new state of the art for standard zero-shot-learning (ZSL) evaluation as well as outperforming all other models in the inductive category for general (GZSL) zero-shot evaluation. Additionally, we are the first to demonstrate zero-shot decoding of complex action sequences on a widely used surgical dataset. Lastly, we show that that we can even eliminate the need to train attribute detectors by using off-the-shelf object detectors to recognize activities in challenging surveillance videos.


翻译:微微成形活动识别的零点视频分类方法与图像对应方法相似,即确定基于图像的属性,从而导致各阶层之间的差别,因此,这些方法不能够捕捉活动的基本动态,因此仅限于静态图像内容仅能足以对活动进行分类的情况。例如,进、出汽车等可逆行动往往无法区分。在这项工作中,我们提出了一个框架,将活动简单建模为动态属性的国家机器。我们显示,将属性的时间结构编码将大大增强我们的模型能力,使我们能够捕捉行动方向。此外,我们可以将这种方法扩大到利用动态程序对活动进行探测,向我们提供在更大视频中对复杂行动序列进行零点联合分解和分类的第一个实例。我们评估奥林匹克体育数据集的方法,我们的模型为标准零点学习(ZSL)评估建立了新状态,以及超越了一般(GZSL)直观目标类别中的所有其他模型,使我们能够通过动态的零镜头评估来大规模地展示一个具有挑战性的图像序列。我们用“革命”的图像来展示我们所使用的数据。

0
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
175+阅读 · 2020年2月1日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
4+阅读 · 2019年4月3日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
6+阅读 · 2018年3月25日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员