报告主题:Accelerating training, inference, and ML applications on NVIDIA GPUs

报告摘要:此次报告中深入探讨了用于常见深度学习和机器学习负载的加速深度学习训练和推理的技术,将了解DALI如何在实际应用程序中消除I/O和数据处理瓶颈,以及自动混合精度(AMP)如何轻松地使您在Volta GPU上的训练性能提高3倍,并且能够看到使用Horovod实现多GPU和多ODE扩展的最佳实践。使用深度学习分析器来可视化TensorFlow操作并识别优化机会。将会学习在TensorRT (TRT)中使用INT8量化来部署这些训练过的模型,所有这些都在TensorFlow框架的新的方便API中进行。

邀请嘉宾

Maggie Zhang是英伟达(NVIDIA)的一名深度学习软件工程师,工作是开发深度学习框架。她在澳大利亚新南威尔士大学获得了计算机科学和工程博士学位。研究背景包括GPU和CPU异构计算、编译器优化、计算机架构和深度学习。

Nathan Luehr是NVIDIA的高级开发技术工程师,工作是加速深度学习框架。他的背景是理论化学,并且拥有斯坦福大学的博士学位,在那里他致力于加速GPU上的电子结构计算。

Josh Romero是NVIDIA的一名开发技术工程师。他在GPU计算方面有丰富的经验,从移植和优化高性能计算(HPC)应用到最近的深度学习工作。Josh在斯坦福大学获得博士学位,他的研究重点是开发新的计算流体动力学方法,以更好地利用GPU硬件。

Pooya Davoodi是英伟达(NVIDIA)的高级软件工程师,致力于在英伟达GPU上加速TensorFlow。在此之前,Pooya曾开发过Caffe2、Caffe、CUDNN和其它CUDA库。

Davide Onofrio是英伟达(NVIDIA)高级深度学习软件技术营销工程师。他在NVIDIA专注于开发和呈现面向开发人员的深度学习技术内容。Davide作为一名计算机视觉和机器学习工程师,在生物识别、VR和汽车行业有多年的工作经验。他在米兰理工大学获得了信号处理的博士学位。

成为VIP会员查看完整内容
Accelerating training, inference, and ML applications on NVIDIA GPUs Presentation.pdf
5

相关内容

Horovod是针对TensorFlow,Keras,PyTorch和MXNet的分布式培训框架。Horovod的目标是使分布式深度学习快速且易于使用。
DLI精选课程 | 用 CUDA C/C++ 优化 GPU 显存(内文有礼)
英伟达NVIDIA中国
8+阅读 · 2019年5月10日
DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型
英伟达NVIDIA中国
5+阅读 · 2019年3月8日
硬件加速神经网络综述
计算机研究与发展
24+阅读 · 2019年2月1日
机器学习必知的15大框架
云栖社区
16+阅读 · 2017年12月10日
谷歌发布TensorFlowLite,用半监督跨平台快速训练ML模型!
全球人工智能
5+阅读 · 2017年11月15日
Object detection on aerial imagery using CenterNet
Arxiv
6+阅读 · 2019年8月22日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
6+阅读 · 2018年3月28日
Arxiv
4+阅读 · 2018年3月23日
Arxiv
3+阅读 · 2018年3月13日
VIP会员
相关VIP内容
相关资讯
DLI精选课程 | 用 CUDA C/C++ 优化 GPU 显存(内文有礼)
英伟达NVIDIA中国
8+阅读 · 2019年5月10日
DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型
英伟达NVIDIA中国
5+阅读 · 2019年3月8日
硬件加速神经网络综述
计算机研究与发展
24+阅读 · 2019年2月1日
机器学习必知的15大框架
云栖社区
16+阅读 · 2017年12月10日
谷歌发布TensorFlowLite,用半监督跨平台快速训练ML模型!
全球人工智能
5+阅读 · 2017年11月15日
微信扫码咨询专知VIP会员