Deep Neural Network (DNN) frameworks use distributed training to enable faster time to convergence and alleviate memory capacity limitations when training large models and/or using high dimension inputs. With the steady increase in datasets and model sizes, model/hybrid parallelism is deemed to have an important role in the future of distributed training of DNNs. We analyze the compute, communication, and memory requirements of Convolutional Neural Networks (CNNs) to understand the trade-offs between different parallelism approaches on performance and scalability. We leverage our model-driven analysis to be the basis for an oracle utility which can help in detecting the limitations and bottlenecks of different parallelism approaches at scale. We evaluate the oracle on six parallelization strategies, with four CNN models and multiple datasets (2D and 3D), on up to 1024 GPUs. The results demonstrate that the oracle has an average accuracy of about 86.74% when compared to empirical results, and as high as 97.57% for data parallelism.


翻译:深神经网络(DNN)框架使用分布式培训,以便在培训大型模型和(或)使用高维投入时,使时间更快地达到趋同并减轻记忆能力限制。随着数据集和模型规模的稳步增加,模型/杂交平行关系在未来对DNN的分布式培训中被认为具有重要作用。我们分析进化神经网络(CNN)的计算、通信和记忆要求,以了解在业绩和可扩缩性方面不同平行做法之间的权衡。我们利用我们的模型驱动分析,作为有助于发现不同平行关系方法的局限性和瓶颈的甲骨文工具的基础。我们评估了六个平行战略的甲骨文,四个CNN模型和多个数据集(2D和3D)在1024 GPU上。结果显示,与经验结果相比,甲骨文的平均精确率约为86.74%,数据平行关系的平均精确度高达97.57%。

0
下载
关闭预览

相关内容

甲骨文公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球最大的企业级软件公司,总部位于美国加利福尼亚州的红木滩。1989年正式进入中国市场。2013年,甲骨文已超越 IBM ,成为继 Microsoft 后全球第二大软件公司。
专知会员服务
162+阅读 · 2020年1月16日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
移动端机器学习资源合集
专知
8+阅读 · 2019年4月21日
已删除
将门创投
3+阅读 · 2019年4月19日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
3+阅读 · 2018年8月12日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
移动端机器学习资源合集
专知
8+阅读 · 2019年4月21日
已删除
将门创投
3+阅读 · 2019年4月19日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员