干货|GPU加速深度学习

2017 年 7 月 20 日 全球人工智能

欢迎加入全球最大AI社群>>

来源:云栖社区  作者:撷峰

摘要: 本文介绍了GPU用于深度学习(尤其是深度学习训练)加速的背景,使用了主流的开源深度学习框架在NVIDIA GPU上实测加速性能,并给出了一些使用建议。

1. 背景
  一年半以前,AlphaGo完胜李世乭的围棋赛让深度学习(Deep Learning)这个名词家喻户晓,再度掀起人工智能的新一波热潮。其实深度学习背后的神经网络基础理论早在上世纪50年代就已提出,经过几起几落的发展,到了21世纪初,多层神经网络算法也日趋成熟。深度学习理论早在十多年以前就有重要突破,为何直到近年才出现爆发。这不得不提到2012年的一场竞赛。
  2012年,Geoffrey E. Hinton(与Yann LeCun 和Yoshua Bengio并称为深度学习三驾马车)的弟子Alex Krizhevsky在ILSVRC-2012的图像分类比赛中使用2块Nvidia GTX 580 GPU训练的多层神经网络(后来被称为AlexNet)以15.3%的top-5测试错误率摘得冠军,而使用传统方法的第二名的成绩是26.2%,整整提高了10多个百分点。这也成为了深度学习发展史上的里程碑事件,从此深度神经网络一炮走红,此后ILSVRC的优胜者一直被深度神经网络霸占。
  可以说深度学习爆发有两个主要原因,一个是像ImageNet这样的大规模数据集的出现,而另一个重要原因就是计算能力的提高,而这主要得益于GPU用于深度学习的加速,尤其是深度学习训练的加速。
  Alex当时使用的数据集包含120万张高清图片,受限于单块GTX 580 GPU 3GB的内存,他们使用了2块GPU来训练他们包含6000万参数和65万神经节点的网络,当时花了5~6天的时间。可以想象,没有GPU的加速,要完成如此大规模的数据集的多层神经网络训练要花费多长的时间。
  随着深度网络层数的增加,训练集动辄以T为单位计算,现在深度学习的训练已经离不开GPU了,而GPU的计算能力也在不断的提升,以满足深度学习训练的计算需求。
2. 实测
  下面是我们使用主流的几个开源深度学习框架在NVIDIA GPU上做的一些深度学习的测试。其中P100和P4的数据均来自于阿里云GPU云服务器新GPU实例的内部测试数据,仅供参考,实际数据请以线上正式环境为准。
2.1 NVCaffe
  NVCaffe是NVIDIA基于BVLC-Caffe针对NVIDIA GPU尤其是多GPU加速优化的开源深度学习框架。
  我们使用NVCaffe对AlexNet、GoogLeNet、ResNet50三种经典卷积神经网络在单机8卡P100服务器上做了训练测试。测试使用ImageNet ILSVRC2012数据集,,其中训练图片1281167张, 验证测试图片 5万张,LMDB格式train set 240GB ,val set 9.4GB,数据单位是Images/Second(每秒处理的图像张数),OOM表示Batch Size太大导致GPU显存不够。
  下面是给出物理机上GoogLeNet的数据:

  从测试数据我们看到,相同GPU数量,随着Batch Size的增大,训练性能会有明显的提升,相同Batch Size,在GPU Memory基本用满的情况下,随着GPU数量的增加,训练性能也会有明显的提升,GPU加速可以接近线性加速。高密GPU服务器可以接近线性加速,对于大数据集的训练提速非常明显。
  我们还对比了不同卷积神经网络模型的多GPU加速比,结果如下:


  可以看到,不同神经网络模型的GPU加速也是有差别的,AlexNet的多GPU加速效果就不如GoogLeNet和ResNet50好。
2.2 MXNet
  相比Caffe,MXNet是一个更加简洁灵活效率高的开源深度学习框架,它配置简单,依赖少,尤其是具有很好的多GPU加速扩展性。
  我们使用Benchmark模式测试ImageNet训练,使用网络Inception-v3(GoogLeNet的升级版)在单机8卡P100服务器上进行测试,物理机加速比如下:

  可以看到,MXNet也具有非常好的GPU线性加速扩展能力。
  下面是P100虚拟机与AWS P2.16xlarge实例的对比,单位是samples/sec,越大性能越好:


2.3 TensorFlow
  TensorFlow得益于背后Google的支持,是活跃度最高的开源深度学习框架。
  我们使用CIFAR-10数据集在P100上做了多GPU加速训练测试,物理机加速比如下:

  可以看到,TensorFlow的单机多卡加速能力是非常差的,尤其是超过2卡以后,跟NVCaffe和MXNet有较大的差距。
  此外,我们使用AlexNet Benchmark模式对不同架构单GPU 做了Forward和Forward-backward性能测试作为比较参考,包括新的Pascal架构的Tesla P100、P4和老的Kepler架构的K80(其中K80数据来源于AWS P2.16xlarge实例,对比的P100也是虚拟机的数据),数据单位sec/ batch,值越小性能越好:

  通过K80与P100、P4的对比,可以看到Pascal架构的GPU(P100、P4)比Kepler架构的GPU(K80)有非常明显的性能提升。其中特别一提的是P4因为较低的TDP(75W),具备非常好的性能功耗比,非常适合作为推理的加速。
3. 总结
  1) 为了缩短训练时间,尽可能选择新架构的GPU,比如Pascal架构的P100,并利用GPU适合并行计算的特点使用多GPU来加速训练。但是注意,并不是所有的深度学习框架都有好的单机多卡加速,比如开源的TensorFlow就不好,我们建议用户使用比如MXNet或者NVCaffe这样的学习框架用于单机多卡加速。
  2) Batch Size的增大对于训练的性能有明显的提升,因此应尽可能选择GPU Memory大的GPU,比如P100的GPU Memory可以达到16GB。
  3) 不同深度神经网络的实现差异,会导致多GPU加速比的差异,在设计或者优化神经网络模型的时候,需要注意如何更好的利用GPU的并行计算能力,比如减小GPU之间的通信开销以提高GPU并行计算的效率。


热门文章推荐

重磅|中国870家ai公司融资905亿人民币!

浙大女科学家解密:从最后一面逆袭第一名!

资料|麻省理工课程:深度学习数据基础(ppt)

推荐|40张动态图详解全部传感器关注原理!

警惕!中国人工智能有一只推荐算法叫:莆田系算法!

百度Apollo:无人驾驶技术发展成熟仅需3年左右!

阿里出了个Take Go无人便利店,比亚马逊还厉害!

大数据:99%的数据是无用的僵尸数据!

突发!长征五号遥二卫星发射任务失败

重磅!微软宣布业务重点调整将专注ai云

登录查看更多
5

相关内容

专知会员服务
78+阅读 · 2020年6月20日
【干货书】高级应用深度学习,294页pdf
专知会员服务
149+阅读 · 2020年6月20日
专知会员服务
73+阅读 · 2020年5月21日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
28+阅读 · 2020年3月5日
【新书】傻瓜式入门深度学习,371页pdf
专知会员服务
183+阅读 · 2019年12月28日
深度神经网络模型压缩与加速综述
专知会员服务
126+阅读 · 2019年10月12日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
GPU 显存不足怎么办?
AINLP
13+阅读 · 2019年8月16日
从LeNet到SENet——卷积神经网络回顾
AI科技评论
13+阅读 · 2018年2月15日
【286页干货】一天搞懂深度学习
七月在线实验室
9+阅读 · 2018年1月30日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
干货 | 深度学习入门指北——从硬件到软件
AI科技评论
3+阅读 · 2017年11月22日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
干货|CNN 模型压缩与加速算法综述
全球人工智能
9+阅读 · 2017年8月26日
CNN 模型压缩与加速算法综述
机器学习研究会
15+阅读 · 2017年8月25日
TResNet: High Performance GPU-Dedicated Architecture
Arxiv
7+阅读 · 2020年3月30日
Arxiv
7+阅读 · 2018年11月6日
Arxiv
3+阅读 · 2018年5月28日
Arxiv
3+阅读 · 2018年3月13日
Arxiv
4+阅读 · 2015年8月25日
VIP会员
相关VIP内容
专知会员服务
78+阅读 · 2020年6月20日
【干货书】高级应用深度学习,294页pdf
专知会员服务
149+阅读 · 2020年6月20日
专知会员服务
73+阅读 · 2020年5月21日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
28+阅读 · 2020年3月5日
【新书】傻瓜式入门深度学习,371页pdf
专知会员服务
183+阅读 · 2019年12月28日
深度神经网络模型压缩与加速综述
专知会员服务
126+阅读 · 2019年10月12日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
相关资讯
GPU 显存不足怎么办?
AINLP
13+阅读 · 2019年8月16日
从LeNet到SENet——卷积神经网络回顾
AI科技评论
13+阅读 · 2018年2月15日
【286页干货】一天搞懂深度学习
七月在线实验室
9+阅读 · 2018年1月30日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
干货 | 深度学习入门指北——从硬件到软件
AI科技评论
3+阅读 · 2017年11月22日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
干货|CNN 模型压缩与加速算法综述
全球人工智能
9+阅读 · 2017年8月26日
CNN 模型压缩与加速算法综述
机器学习研究会
15+阅读 · 2017年8月25日
Top
微信扫码咨询专知VIP会员