使用TensorRT集成加速TensorFlow推理 - 专知

会员服务 ·

0

使用TensorRT集成加速TensorFlow推理

2018 年 4 月 11 日 云栖社区

云栖君导读：本文讲述了TensorRT集成如何加速TensorFlow推理，以及实例演示帮助你入门。

NVIDIA宣布完成了推理优化工具TensorRT与TensorFlow将集成在一起工作。TensorRT集成将可用于TensorFlow1.7版本。TensorFlow仍然是当今最受欢迎的深度学习框架，而NVIDIA TensorRT通过对GPU平台的优化和提高性能，加速了深度学习推理。我们希望使用TensorRT能为TensorFlow用户提供尽可能高的推理性能以及接近透明的工作流。新的集成提供了一个简单的API，它能够使用TensorFlow中的TensorRT实现FP16和INT8的优化。对于ResNet-50基准测试的低延迟运行，TensorRT将TensorFlow推理速度提高了8倍。

下面让我们看一下工作流的概述，以及一些例子以便帮助入门。

TensorFlow内的子图优化

使用与TensorRT集成的TensorFlow优化并执行兼容的子图，让TensorFlow执行剩余的图。你仍然可以使用TensorFlow广泛且灵活的功能集，但是TensorRT能尽可能的解析模型，并对图的部分应用进行优化。而且TensorFlow程序只需要几行新代码就可以促进集成。将TensorRT优化应用于TensorFlow模型时需要导出图表，在某些情况下还需要手动导入某些不受支持的TensorFlow层，这可能会非常耗时。

现在让我们逐步了解工作流。在冻结TensorFlow图进行推理后，使用TensorRT对TensorFlow子图进行优化。然后TensorRT用TensorRT优化节点替换每个支持的子图，生成一个在TensorFlow中运行的冻结图来进行推断。图1说明了工作流。

图一所示：在推理过程中使用TensorRT时的工作流图

TensorFlow在所有可支持领域内执行图形，并调用TensorRT执行TensorRT优化节点。例如，假设图形有三个段，A、B和C，片段B经过了TensorRT优化并被一个节点替换。那么在推理过程中，TensorFlow执行A，然后调用TensorRT执行B，之后继续TensorFlow执行C。从用户角度来看，该过程和之前使用TensorFlow执行图形一样。现在让我们看看应用这个工作流的一个示例。

新的TensorFlow API

让我们看看如何使用新的TensorFlow api将TensorRT优化应用到TensorFlow图中。首先在现有的TensorFlow GPU代码中添加几行代码：

1、在GPU内存中指定TensorFlow可用的部分，TensorRT可以使用剩余的内存。

2、让TensorRT分析TensorFlow图，应用优化，并用TensorRT节点替换子图。

使用GPUOptions函数中的新参数per_process_gpu_memory_fraction指定TensorRT可以使用的GPU部分。该参数需要在第一次启动TensorFlow-TensorRT时进行设置。例如，0.67意味着将为TensorFlow分配67%的GPU内存，而剩下的33%用于TensorRT引擎。

使用新函数create_inference_graph将TensorRT优化应用于冻结图。然后，TensorRT将一个冻结的TensorFlow图作为输入，并返回一个带有TensorRT节点的优化图。参见下面的示例代码片段:

让我们看一下函数的参数：

frozen_graph_def：冻结的TensorFlow图表
put_node_name：带有输出节点名称的字符串列表，例如
max_batch_size：整数，输入批次的大小，如16。
max_workspace_size_bytes：整数，可用于TensorRT的最大GPU内存。
precision_mode：字符串，允许的值为“FP32”，“FP16”或“INT8”。

可以通过设置per_process_gpu_memory_fraction和max_workspace_size_bytes参数来获得最佳性能。例如，将per_process_gpu_memory_fraction参数设置为(12 - 4)/ 12 = 0.67，将max_workspace_size_bytes参数设置为4000000000，用于12GB的GPU，以便为TensorRT引擎分配4GB。

在TensorBoard中将优化后的图形可视化

首先在TensorBoard中应用TensorRT优化，然后将对ResNet-50节点图的更改进行可视化。如图2所示，TensorRT几乎优化了整个图形，并用“my_trt_po0”节点进行替换（用红色突出显示）。根据模型中的图层和操作，TensorRT节点会因优化而替换部分模型。

图2.左：TensorBoard中的ResNet-50图。右：经过TensorRT优化并且子图被TensorRT节点替换之后。

要注意TensorRT节点下的名为“conv1”的节点。它实际上不是一个卷积层，而是一种显示为conv1的从NHWC到NCHW的转置操作。这是因为TensorBoard仅显示层次结构中顶部节点的名称，而不是默认情况下的单个操作。

自动使用TensorBoard Cores

与FP32和FP64相比，使用半精度（即FP16）算法能够减少神经网络的内存使用，而且还能够花费更少的时间部署更大的网络。每个Tensor Core包含一个4x4x4的矩阵处理阵列来完成D=AxB+C的运算，其中A、B、C、D是4x4的矩阵，如图3所示。矩阵相乘的输入A和B是FP16矩阵，相加矩阵C和D可能是矩阵或FP32矩阵。

图3.Tensor Cores上的矩阵处理运算

在使用半精度算法时，TensorRT会自动在Volta GPU中使用Tensor Cores进行推理。NVIDIA Tesla V100上的Tensor Cores峰值性能比双精度（FP64）快大约10倍，比单精度（FP32）快4倍。只需使用“FP16”作为create_inference_graph函数中的precision_mode参数的值即可启用半精度，如下所示。

图4显示了使用NVIDIA Volta Tensor Cores与仅运行TensorFlow的TensorFlow-TensorRT集成的差距，ResNet-50在7 ms延迟下执行速度提高了8倍。

图4.ResNet-50推理吞吐量性能

优化INT8推理性能

使用INT8精度进行推理能够进一步提高计算速度并降低宽带要求。动态范围的减少使得神经网络的表示权重和激活变得更加有挑战性。表1说明了动态范围的影响。

表1：FP32 vs FP16 vs INT8动态范围

TensorRT提供了在单精度（FP32）和半精度（FP16）中接受训练的模型，并将它们转换为用于INT8量化的部署，同时能够将精度损失降至最低。要想模型能够使用INT8进行部署，需要在应用TensorRT优化之前校准经过训练的FP32模型。剩下的工作流保持不变。图5显示了更新后的工作流。

图5.更新后的TensorFlow工作流，包括TensorRT优化之前的INT8校准

首先使用create_inference_graph函数，并将precision_mode参数设置为“INT8”来校准模型。这个函数的输出是一个冻结的TensorFlow图，可以用来校准。

接下来用校准数据来执行校准图。TensorRT根据节点数据的分布来量化节点的权重。校准数据非常重要，因为它可以密切反应生产中问题数据集的分布。我们建议在首次使用INT8校准模板是检查推理期间的错误积累。

在校准数据上执行图形后，使用calib_graph_to_infer_graph函数对校准图形应用TensorRT优化。还可以用为INT8优化的TensorRT节点替换TensorFlow子图。函数的输出是一个冻结的TensorFlow图表，可以像往常一样用于推理。

这两个命令可以启用TensorFlow模型的INT8精度推断。

TensorRT集成可用性

我们将继续与TensorFlow团队紧密合作，以加强TensorRT集成的可用性。我们期望新的解决方案在能够保持TensorFlow易用性和灵活性的同时，可以确保NVIDIA GPU性能达到最高。而且由于TensorRT支持多种网络，所以开发人员不需要对现有代码进行任何更改，仅从自动更新中就能获益。

使用标准的pip安装过程来获得新的集成解决方案，一旦TensorFlor1.7可用：

本文由阿里云云栖社区组织翻译。

文章原标题《TensorRT Integration Speeds Up TensorFlow Inference | NVIDIA Developer Blog》

作者：Sami Kama，Julie Bernauer，Siddharth Sharma

译者：奥特曼，审校：袁虎。

end

实战：阿里巴巴 DevOps 转型后的运维平台建设

利用Python实现卷积神经网络的可视化

如何避免HBase写入过快引起的各种问题

深度学习领域引用量前20篇论文简介

更多精彩

登录查看更多

2

相关内容

TensorFlow

Google发布的第二代深度学习系统TensorFlow

最新TensorFlow2.0机器学习实用指南—第二版（附279页pdf下载）

最新TensorFlow2.0机器学习实用指南—第二版（附279页pdf下载）

专知会员服务

278+阅读 · 2020年6月9日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

专知会员服务

70+阅读 · 2020年3月25日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【2020新书】JavaScript神经网络在TensorFlow.js中的深度学习，561页pdf

【2020新书】JavaScript神经网络在TensorFlow.js中的深度学习，561页pdf

专知会员服务

104+阅读 · 2020年2月4日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

KGCN：使用TensorFlow进行知识图谱的机器学习

KGCN：使用TensorFlow进行知识图谱的机器学习

专知会员服务

83+阅读 · 2020年1月13日

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

专知会员服务

61+阅读 · 2019年12月29日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

社区分享｜如何让模型在生产环境上推理得更快

社区分享｜如何让模型在生产环境上推理得更快

TensorFlow

47+阅读 · 2020年2月19日

使用ONNX+TensorRT部署人脸检测和关键点250fps

使用ONNX+TensorRT部署人脸检测和关键点250fps

极市平台

34+阅读 · 2019年10月22日

DLI精选课程 | 用TensorRT实现视频分析部署（内文有礼）

DLI精选课程 | 用TensorRT实现视频分析部署（内文有礼）

英伟达NVIDIA中国

11+阅读 · 2019年4月26日

DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型

DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型

英伟达NVIDIA中国

6+阅读 · 2019年3月8日

业界 | TensorFlow 携手 NVIDIA，使用 TensorRT 优化 TensorFlow Serving 性能

业界 | TensorFlow 携手 NVIDIA，使用 TensorRT 优化 TensorFlow Serving 性能

AI研习社

8+阅读 · 2019年3月7日

资源 | TensorFlow推出模型优化工具包，可将模型压缩75%

资源 | TensorFlow推出模型优化工具包，可将模型压缩75%

机器之心

9+阅读 · 2018年9月24日

模型大小缩小75%，TensorFlow推出模型优化工具包

模型大小缩小75%，TensorFlow推出模型优化工具包

论智

7+阅读 · 2018年9月19日

用 TensorFlow 目标检测 API 发现皮卡丘！

用 TensorFlow 目标检测 API 发现皮卡丘！

AI研习社

5+阅读 · 2018年6月4日

Tensorflow Eager Execution入门指南

Tensorflow Eager Execution入门指南

专知

6+阅读 · 2018年4月16日

终于！谷歌移动端深度学习框架 TensorFlow Lite 正式发布

终于！谷歌移动端深度学习框架 TensorFlow Lite 正式发布

开源中国

3+阅读 · 2017年11月16日

Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

Arxiv

7+阅读 · 2020年3月12日

Reasoning on Knowledge Graphs with Debate Dynamics

Reasoning on Knowledge Graphs with Debate Dynamics

Arxiv

14+阅读 · 2020年1月2日

MR-GNN: Multi-Resolution and Dual Graph Neural Network for Predicting Structured Entity Interactions

MR-GNN: Multi-Resolution and Dual Graph Neural Network for Predicting Structured Entity Interactions

Arxiv

6+阅读 · 2019年5月23日

Hierarchical Deep Multiagent Reinforcement Learning

Hierarchical Deep Multiagent Reinforcement Learning

Arxiv

8+阅读 · 2018年9月25日

Rapid Customization for Event Extraction

Rapid Customization for Event Extraction

Arxiv

7+阅读 · 2018年9月20日

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

Arxiv

4+阅读 · 2018年7月30日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

Convolutional 2D Knowledge Graph Embeddings

Arxiv

29+阅读 · 2018年4月6日

Towards an Engine for Lifelong Interactive Knowledge Learning in Human-Machine Conversations

Arxiv

5+阅读 · 2018年2月16日

Efficient Parallel Translating Embedding For Knowledge Graphs

Arxiv

9+阅读 · 2018年1月9日

VIP会员

相关主题

相关VIP内容

最新TensorFlow2.0机器学习实用指南—第二版（附279页pdf下载）

最新TensorFlow2.0机器学习实用指南—第二版（附279页pdf下载）

专知会员服务

278+阅读 · 2020年6月9日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

专知会员服务

70+阅读 · 2020年3月25日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【2020新书】JavaScript神经网络在TensorFlow.js中的深度学习，561页pdf

【2020新书】JavaScript神经网络在TensorFlow.js中的深度学习，561页pdf

专知会员服务

104+阅读 · 2020年2月4日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

KGCN：使用TensorFlow进行知识图谱的机器学习

KGCN：使用TensorFlow进行知识图谱的机器学习

专知会员服务

83+阅读 · 2020年1月13日

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

专知会员服务

61+阅读 · 2019年12月29日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

医疗健康行业：AI应用白皮书

多模态大型语言模型：综述

ACL 2025 Findings | SIPO: 缓解多目标对齐中的偏好冲突

【ETZH博士论文】语言模型编程

相关资讯

社区分享｜如何让模型在生产环境上推理得更快

社区分享｜如何让模型在生产环境上推理得更快

TensorFlow

47+阅读 · 2020年2月19日

使用ONNX+TensorRT部署人脸检测和关键点250fps

使用ONNX+TensorRT部署人脸检测和关键点250fps

极市平台

34+阅读 · 2019年10月22日

DLI精选课程 | 用TensorRT实现视频分析部署（内文有礼）

DLI精选课程 | 用TensorRT实现视频分析部署（内文有礼）

英伟达NVIDIA中国

11+阅读 · 2019年4月26日

DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型

DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型

英伟达NVIDIA中国

6+阅读 · 2019年3月8日

业界 | TensorFlow 携手 NVIDIA，使用 TensorRT 优化 TensorFlow Serving 性能

业界 | TensorFlow 携手 NVIDIA，使用 TensorRT 优化 TensorFlow Serving 性能

AI研习社

8+阅读 · 2019年3月7日

资源 | TensorFlow推出模型优化工具包，可将模型压缩75%

资源 | TensorFlow推出模型优化工具包，可将模型压缩75%

机器之心

9+阅读 · 2018年9月24日

模型大小缩小75%，TensorFlow推出模型优化工具包

模型大小缩小75%，TensorFlow推出模型优化工具包

论智

7+阅读 · 2018年9月19日

用 TensorFlow 目标检测 API 发现皮卡丘！

用 TensorFlow 目标检测 API 发现皮卡丘！

AI研习社

5+阅读 · 2018年6月4日

Tensorflow Eager Execution入门指南

Tensorflow Eager Execution入门指南

专知

6+阅读 · 2018年4月16日

终于！谷歌移动端深度学习框架 TensorFlow Lite 正式发布

终于！谷歌移动端深度学习框架 TensorFlow Lite 正式发布

开源中国

3+阅读 · 2017年11月16日

相关论文

Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

Arxiv

7+阅读 · 2020年3月12日

Reasoning on Knowledge Graphs with Debate Dynamics

Reasoning on Knowledge Graphs with Debate Dynamics

Arxiv

14+阅读 · 2020年1月2日

MR-GNN: Multi-Resolution and Dual Graph Neural Network for Predicting Structured Entity Interactions

MR-GNN: Multi-Resolution and Dual Graph Neural Network for Predicting Structured Entity Interactions

Arxiv

6+阅读 · 2019年5月23日

Hierarchical Deep Multiagent Reinforcement Learning

Hierarchical Deep Multiagent Reinforcement Learning

Arxiv

8+阅读 · 2018年9月25日

Rapid Customization for Event Extraction

Rapid Customization for Event Extraction

Arxiv

7+阅读 · 2018年9月20日

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

Arxiv

4+阅读 · 2018年7月30日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

Convolutional 2D Knowledge Graph Embeddings

Arxiv

29+阅读 · 2018年4月6日

Towards an Engine for Lifelong Interactive Knowledge Learning in Human-Machine Conversations

Arxiv

5+阅读 · 2018年2月16日

Efficient Parallel Translating Embedding For Knowledge Graphs

Arxiv

9+阅读 · 2018年1月9日

大家都在搜

大型语言模型

CMU博士论文

无人机系统

软件无线电

久别重逢话双塔

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员