Spatiotemporal feature learning in videos is a fundamental and difficult problem in computer vision. This paper presents a new architecture, termed as Appearance-and-Relation Network (ARTNet), to learn video representation in an end-to-end manner. ARTNets are constructed by stacking multiple generic building blocks, called as SMART, whose goal is to simultaneously model appearance and relation from RGB input in a separate and explicit manner. Specifically, SMART blocks decouple the spatiotemporal learning module into an appearance branch for spatial modeling and a relation branch for temporal modeling. The appearance branch is implemented based on the linear combination of pixels or filter responses in each frame, while the relation branch is designed based on the multiplicative interactions between pixels or filter responses across multiple frames. We perform experiments on three action recognition benchmarks: Kinetics, UCF101, and HMDB51, demonstrating that SMART blocks obtain an evident improvement over 3D convolutions for spatiotemporal feature learning. Under the same training setting, ARTNets achieve superior performance on these three datasets to the existing state-of-the-art methods.


翻译:视频的外观性能学习是计算机视觉中一个根本性和困难的问题。 本文展示了一个新的结构, 称为外观和关系网络( ARTNet), 以端到端的方式学习视频演示。 ARTNet 是由堆叠多个通用建筑块建造的, 称为 SMART, 目标是以单独和明确的方式同时模拟外观和 RGB 输入的关系。 具体地说, SMART 区块将空间建模和时间建模关系分支的双时相学习模块拆成一个外观分支。 外观分支基于每个框架的像素或过滤器反应的线性组合, 而关系分支则以多个框架的像素或过滤器反应之间的多复制性互动为基础设计。 我们根据三种行动识别基准进行实验: 肯亚学、 UCFF101 和 HMDB51, 表明 SMART 区块在3D 相变相中获得了显著的改进, 用于空间建模和时间建模。 在同一培训环境中, ARTNet 在这三个数据集中, 取得了优异性功能。

3
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
10+阅读 · 2018年4月19日
Arxiv
9+阅读 · 2018年3月10日
VIP会员
Top
微信扫码咨询专知VIP会员