Recently,there has been a lot of interest in building compact models for video classification which have a small memory footprint (<1 GB). While these models are compact, they typically operate by repeated application of a small weight matrix to all the frames in a video. E.g. recurrent neural network based methods compute a hidden state for every frame of the video using a recurrent weight matrix. Similarly, cluster-and-aggregate based methods such as NetVLAD, have a learnable clustering matrix which is used to assign soft-clusters to every frame in the video. Since these models look at every frame in the video, the number of floating point operations (FLOPs) is still large even though the memory footprint is small. We focus on building compute-efficient video classification models which process fewer frames and hence have less number of FLOPs. Similar to memory efficient models, we use the idea of distillation albeit in a different setting. Specifically, in our case, a compute-heavy teacher which looks at all the frames in the video is used to train a compute-efficient student which looks at only a small fraction of frames in the video. This is in contrast to a typical memory efficient Teacher-Student setting, wherein both the teacher and the student look at all the frames in the video but the student has fewer parameters. Our work thus complements the research on memory efficient video classification. We do an extensive evaluation with three types of models for video classification,viz.(i) recurrent models (ii) cluster-and-aggregate models and (iii) memory-efficient cluster-and-aggregate models and show that in each of these cases, a see-it-all teacher can be used to train a compute efficient see-very-little student. We show that the proposed student network can reduce the inference time by 30% and the number of FLOPs by approximately 90% with a negligible drop in the performance.


翻译:最近,人们对建立具有小记忆足迹( < 1GB) 的视频分类紧凑模型非常感兴趣。 虽然这些模型是紧凑的, 但通常通过对视频中的所有框架反复应用一个小重量矩阵来操作。 例如, 经常的神经网络使用一个经常性重量矩阵来计算视频每个框架的隐藏状态。 同样, 以集群和聚合为基础的方法, 如 NetVLAD, 拥有一个可学习的集群矩阵, 用于为视频中的每个框架分配软集群。 由于这些模型查看视频中的每一个框架, 浮动点操作( FLOPs) 的数量仍然很大, 尽管存储足迹的大小仍然很小。 我们侧重于建立可理解高效的视频分类模型, 处理框架更少, 从而减少FLOPs。 类似记忆高效模型, 我们使用蒸馏的概念。 具体地说, 我们用一个直观的读数教师模型来查看视频中的所有框架( 直观的模型) 用于培训一个精准的学生, 只看一个小部分的浮点操作操作操作操作操作, 并且用一个典型的缩缩缩略的缩缩缩缩缩缩缩缩缩缩图 。 这样, 显示每个视频的图像的缩缩略图显示的缩略图, 显示我们的缩略图中的缩缩缩缩缩图。

2
下载
关闭预览

相关内容

【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
45+阅读 · 2020年7月4日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
5+阅读 · 2018年5月16日
Arxiv
8+阅读 · 2018年3月20日
VIP会员
相关资讯
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员