Deep video recognition is more computationally expensive than image recognition, especially on large-scale datasets like Kinetics [1]. Therefore, training scalability is essential to handle a large amount of videos. In this paper, we study the factors that impact the training scalability of video networks. We recognize three bottlenecks, including data loading (data movement from disk to GPU), communication (data movement over networking), and computation FLOPs. We propose three design guidelines to improve the scalability: (1) fewer FLOPs and hardware-friendly operator to increase the computation efficiency; (2) fewer input frames to reduce the data movement and increase the data loading efficiency; (3) smaller model size to reduce the networking traffic and increase the networking efficiency. With these guidelines, we designed a new operator Temporal Shift Module (TSM) that is efficient and scalable for distributed training. TSM model can achieve 1.8x higher throughput compared to previous I3D models. We scale up the training of the TSM model to 1,536 GPUs, with a mini-batch of 12,288 video clips/98,304 images, without losing the accuracy. With such hardware-aware model design, we are able to scale up the training on Summit supercomputer and reduce the training time on Kinetics dataset from 49 hours 55 minutes to 14 minutes 13 seconds, achieving a top-1 accuracy of 74.0%, which is 1.6x and 2.9x faster than previous 3D video models with higher accuracy. The code and more details can be found here: http://tsm-hanlab.mit.edu.


翻译:深层视频识别比图像识别成本更昂贵,特别是动因[1]等大型数据集。因此,培训可缩放性对于处理大量视频至关重要。在本文中,我们研究了影响视频网络培训可缩放性的因素。我们认识到三个瓶颈,包括数据装载(数据从磁盘移动到GPU)、通信(通过网络进行数据移动)和计算FLOPs。我们提议了三个设计指南,以提高可缩放性:(1) FLOPs和硬件友好型操作器,以提高计算效率;(2)减少用于减少数据移动和提高数据负荷效率的输入框架;(3)减少网络流量和提高网络效率的模型规模较小;(3)减少网络流量和提高网络效率的模型规模。根据这些指南,我们设计了55个新的操作器“TSM”模块(TSM),该模块高效且可升级到分布式培训。TSMSM模式比以前的I3D模型高出1.8倍。我们将TSMSM模式的培训提高到1 536 GPPPP, 其小批量为12288视频剪98、304图像,但不会失去准确性。49个视频版本的版本,其精度将达到13个标准。在标准模型上,在标准模型上可以降低上,在标准上,在13个标准上,在标准上,在标准模型上,在标准模型上可以降低。在标准上,在标准上,在标准上,在标准上,在标准上,在标准值为14个标准上,在标准上,在标准上,在标准上,在14个模型上,在标准上,在标准上,在标准上,在标准上,在标准上,在标准上,在标准上,在标准上,在标准上,在标准上,在标准上,在标准上,在标准上,在标准上,在标准上,在标准上,在标准上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在上,在

0
下载
关闭预览

相关内容

【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
46+阅读 · 2020年7月4日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
105+阅读 · 2020年5月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
143+阅读 · 2019年10月12日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
43+阅读 · 2019年12月20日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
VIP会员
相关资讯
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员