Understanding accurate information on human behaviours is one of the most important tasks in machine intelligence. Human Activity Recognition that aims to understand human activities from a video is a challenging task due to various problems including background, camera motion and dataset variations. This paper proposes two CNN based architectures with three streams which allow the model to exploit the dataset under different settings. The three pathways are differentiated in frame rates. The single pathway, operates at a single frame rate captures spatial information, the slow pathway operates at low frame rates captures the spatial information and the fast pathway operates at high frame rates that capture fine temporal information. Post CNN encoders, we add bidirectional LSTM and attention heads respectively to capture the context and temporal features. By experimenting with various algorithms on UCF-101, Kinetics-600 and AVA dataset, we observe that the proposed models achieve state-of-art performance for human action recognition task.


翻译:了解关于人类行为的准确信息是机器智能中最重要的任务之一。人类活动认识旨在从视频中了解人类活动是一项艰巨的任务,因为各种问题,包括背景、摄影机动作和数据集的变化。本文件提议了两个有线电视新闻网的建筑结构,其中有三个流,使模型能够在不同的环境下利用数据集。三个路径在框架率上有区别。单一路径以单一框架速率运行,捕捉空间信息,低框架速率运行缓慢路径捕捉空间信息,快速路径以高框架速率运行,捕捉精细的时空信息。在CNN编码器后,我们添加双向LSTM和关注头,分别捕捉上下文和时间特征。我们通过实验UCF-101、Kinetics-600和AVA数据集上的各种算法,我们观察到拟议模型在人类行动识别任务上达到了最先进的性能。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
70+阅读 · 2020年8月2日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
VIP会员
相关VIP内容
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
Top
微信扫码咨询专知VIP会员