AI推理公开课来了！从理论到代码，两节课带你掌握AI推理优化方法

2019 年 7 月 13 日 智东西

一个深度神经网络从构建到实际应用会经过训练（Training)和推理（Inference）两个阶段。其中，神经网络模型的训练需要大量的数据和算力提供支持，并且在训练的过程中需要不断的对模型进行调优和多次重复的计算，以使得模型具备良好的鲁棒性；而推理则是向训练好的模型输入新的数据，从而对某一事物做出尽可能准确的判断和猜测，跟模型的训练效果密不可分。

推理一般是在特定场景、有限算力的情况下进行的，可能是在云端数据中心，也可能是在智能手机、智能音箱等终端设备上，因此会对算力和时延具有很高的要求。如果将训练好的神经网络直接部署到推理端，很有可能出现算力不足无法运行，或者推理时间较长等问题，因此我们需要对训练好的神经网络进行一定的优化。

神经网络模型的优化可以从不同的维度来进行，比如模型压缩、不同网络层合并、稀疏化、采用低精度数据类型，甚至还需要根据硬件特性对网络模型进行一定的优化等。但是，通常神经网络模型的规模都比较大，手动调整显然是不现实的，那么如何快速有效的解决这个问题呢？

如果你还没有具体的解决方案，NVIDIA TensorRT或许是一个不错的选择。TensorRT是一种高性能神经网络推理引擎，主要是用来在部署神经网络到推理端之前，对神经网络进行优化加速，来提高程序的吞吐量以及降低延迟。TensorRT会从权重参数类型、动态Tensor Memory、多流执行、内核调用、网络层融合等不同维度对神经网络模型进行优化，并且支持Caffe、TensorFlow、ONNX等主流的深度学习框架。

尽管如此，在实际开发过程中我们还是会遇到为特定需求而自定义的网络层，超出了TensorRT的支持范围，这时候该怎么办呢？别担心，可以试试TensorRT的高级特性——插件（Plugin），开发者可以通过自定义插件的形式告诉TensorRT需要做什么操作，然后插入到神经网络的合适位置即可获得TensorRT的支持。

看了这么多，你是不是已经心动了呢？别着急，智东西公开课推出AI推理公开课NVIDIA专场，帮你解决AI推理优化难题。本次AI推理公开课NVIDIA专场共两讲，将完全由NVIDIA高级解决方案架构师刘士君进行讲解。讲解采取的是PPT课件+语音的直播讲解形式。

7月17日晚7点，第一讲将开讲，主题为《使用TensorRT为语音识别模型推理加速》，刘士君老师将从影响AI推理性能的因素、TensorRT的基本加速原理、网络导入方法到具体的语音识别模型推理加速案例进行深入讲解；

第二讲将于7月31日晚7点开讲，刘士君老师讲从TensorRT的高级特性出发，告诉你如何利用TensorRT的高级特性加速自定义网络层、低精度数据支持、以及对不同深度学习框架的支持方法，并辅以代码实例，深入浅出地进行系统讲解。

本次NVIDIA专场设有主讲群，每场开放200名额。加入主讲群，你除了可以提前获取课件、免费收听直播之外，还能直接和讲师认识及交流。当然，你还可以结识更多的技术大牛。

欢迎收看直播讲解以及申请加入主讲群，一起学习和成长。

专场详情