视觉推理新杀器！英特尔新一代VPU性能翻10倍，反超英伟达

会员服务 ·

视觉推理新杀器！英特尔新一代VPU性能翻10倍，反超英伟达

2019 年 11 月 13 日 新智元

新智元报道

来源：venturebeat

编辑：肖琴

【新智元导读】英特尔今天宣布首款AI芯片Nervana神经网络处理器正式商用交付，分别面向AI训练和推理，挑战英伟达GPU。同时，英特尔还发布了新一代Movidius Myriad视觉处理单元(VPU)，代号为Keem Bay。英特尔能撬动英伟达在AI训练方面的王者地位吗，来新智元 AI 朋友圈和AI大咖们一起讨论吧。

11月13日凌晨，在旧金山举办的人工智能峰会上，英特尔正式宣布Nervana神经网络处理器 (Nervana NNP)已投入生产并商用交付。这是英特尔NNP研发项目对外宣告三年后的第一款 AI 商用芯片。

英特尔公司副总裁兼人工智能产品事业部总经理Naveen Rao

同时，在大会上，英特尔还发布了新一代Movidius Myriad视觉处理单元(VPU)，代号为Keem Bay，用于边缘媒体、计算机视觉和推理应用。

下一代英特尔Movidius VPU计划于 2020 年上半年上市，凭借独一无二的高效架构优势，能够提供业界领先的性能：与上一代VPU相比，推理性能提升10倍以上，能效则可达到竞品的 6 倍。

挑战英伟达，首款AI芯片终于商用，训练推理齐发

英特尔表示，Nervana NNP具备超高扩展性和超高效率，它是系统级人工智能解决方案的一部分。该解决方案提供由开放组件和深度学习框架集成开发而成的完整软件堆栈，能够充分利用硬件性能。

英特尔的面向训练 (NNP-T1000) 和面向推理 (NNP-I1000) 的Nervana神经网络处理器是其为云端和数据中心客户提供的首个针对复杂深度学习的专用 ASIC芯片。

Nervana NNP-T1000

最直接挑战英伟达GPU的是Nervana NNP-T1000神经网络训练处理器，它针对AI模型训练任务进行优化。训练对于确保AI模型产生准确的结果必不可少，而如今绝大多数AI训练都采用英伟达GPU。

面向训练的Nervana NNP-T

NNP-T为深度学习应用程序的高效训练而设计，在32张卡上的测试数据表明，Resnet-50 & BERT的可扩展性高达95%，同时达到SOTA的精度。此外，从8卡机箱内置系统转移到32卡跨机箱系统时，通信带宽没有损失。

英特尔Nervana NNP-T在计算、通信和内存之间取得了平衡，不管是对于小规模群集，还是最大规模的 pod 超级计算机，都可进行近乎线性且极具能效的扩展。

英特尔在8月份的一次通告中曾透露，NNP-T1000能够达到每秒119万亿次操作。但它不会单独推出处理器，而是将其作为加速器卡的一部分，企业可以将加速卡插入服务器。这些卡的设计使得大量卡可以相对容易地连接在一起，英特尔表示，这使得它们甚至可以支持超级计算机规模的人工智能训练工作。

NNP-T1000的生产也与通常不同，不是在英特尔自己的工厂生产，而是选择外包给台积电。NNP-T1000由270亿个晶体管组成，采用台积电的16纳米制造工艺，并被组织成24个处理器核心。

Nervana NNP-I1000

面向推理的Nervana NNP-I

与此同时，NNP-I为运行接近实时、大容量、低延迟的推理而设计。英特尔最近发布了在pre-alpha软件上两款Intel Nervana NNP-I处理器的MLPerf测试结果，使用ONNX，ResNet-50的ImageNet图像分类在脱机环境下可以达到惊人的10567张/秒，服务器环境下可以达到10263张/秒。

NNP-I1000基于英特尔最新的10纳米芯片架构，实际是采用一个10纳米的CPU，将其简化为两个处理核心，并添加了12个“推理引擎”，用于运行人工智能软件。

该芯片每秒可运行多达3600次推断。基准测试的结果是每瓦4.8万亿次运算，英特尔声称这使得NNP-I1000成为同类芯片中最节能的芯片。

芯片尺寸示意

此外，NNP-I将得到OpenVINO的支持，OpenVINO是一个工具包，旨在方便地将计算机视觉和深度学习推理引入边缘端的视觉应用程序。

作为对OpenVINO的不足的补充，英特尔还发布了新的面向边缘的Intel DevCloud，它允许开发者在购买硬件之前在一系列Intel处理器上对AI解决方案进行原型设计和测试。

官宣下一代VPU Keem Bay：性能翻10倍，比英伟达和华为都快

在峰会上，英特尔物联网副总裁Jonathan Ballon详细介绍了代号为Keem Bay的下一代Movidius Myriad视觉处理单元 (VPU)。

英特尔物联网副总裁Jonathan Ballon

Movidius Myriad VPU专为边缘推理任务进行优化，Jonathan Ballon介绍，该芯片拥有64位内存带宽的全新on-die存储器架构，性能是上一代的10倍左右。

Ballon说：“它将提供比GPU更好的性能，同时功率、尺寸和成本都比GPU小很多。”“它补充了我们的产品、工具和服务组合的完整性。”

可以肯定的是，Keem Bay性能很强大。英特尔表示，它的功率仅为英伟达TX2的五分之一，但处理速度比英伟达TX2快4倍；此外，比华为海思的 Ascend 310人工智能加速器快1.25倍。

在某些情况下，它的能效可达到竞争对手的6倍。此外，与Nvidia的Xavier相比，它的每秒推理能力是Xavier的4倍。Keem Bay的尺寸为72mm2，而Nvidia Xavier的尺寸为350mm。

Ballon说，“充分利用”英特尔OpenVINO工具包的客户还可以获得大约50%的额外性能。

Movidius Myriad VPU将在2020年上半年推出，包括PCI Express和M.2。

英特尔2019年度AI营收有望超35亿美元

英特尔于2016年9月收购了Movidius公司，该公司专注于为计算机视觉设计专门的低功耗处理器芯片。它的VPU包有专门用于计算机视觉的芯片和十几个特制的处理器核心，这些核心可以加速AI算法的执行，所有这些都可以通过Myriad开发工具包(MDK)进行编程。

在收购后的几年中，英特尔推出了Myriad 2，这款产品被应用于谷歌的Clips相机、Flir的Firefly、大疆的Phantom 4无人机和腾讯的DeepGaze。它的下一代产品Myriad X具有改进的成像和视觉引擎，包括附加的可编程的SHAVE核心和升级的视觉加速器，以及一个支持多达8个高清传感器的原生4K图像处理器 pipeline。

人工智能正日益成为英特尔业务的核心部分。英特尔在最近一次财报电话会议上表示，2019年人工智能的营收将达到35亿美元。这一数字高于2017年的10亿美元，也已经完成了到2022年100亿美元的目标的三分之一以上。

英特尔公司副总裁兼人工智能产品事业部总经理Naveen Rao在台上表示：“随着人工智能的进一步发展，计算硬件和内存都将到达临界点。如果要在该领域继续取得巨大进展，专用型硬件必不可少，如英特尔 Nervana NNP 和 Movidius Myriad VPU。采用更先进的系统级人工智能，我们将从‘数据到信息的转换’阶段发展到‘信息到知识的转换’阶段。”