Intel 10nm十代酷睿改造转战M.2：神经网络推理

2019 年 8 月 21 日 cnbeta资讯

Intel 10nm Ice Lake十代酷睿处理器已经上市，但它可不仅仅会用于轻薄笔记本，未来还会登陆服务器，而在两个月前以色列海法(Intel重要研发基地)，Intel还展示了一款基于10nm Ice Lake打造的Nervana NNP-I(神经网络推理处理器)，但采用了M.2样式。

Hot Chips 31芯片大会上，Intel首次公布了这款特殊产品的架构细节。

这是10nm Ice Lake十代酷睿处理器

这是基于Ice Lake改造的M.2 NNP-I

在无处不AI(AI Everywhere)的指导思想下，Intel正在研究各种各样的AI软硬件方案，包括CPU、GPU、FPGA、ASIC等等。

这款新的NNP-I代号为“Spring Hill”(温泉山丘)，面向数据中心领域的轻度AI推理工作，能做成M.2扩展卡正是得益于10nm芯片的超小面积。

在原有10nm Ice Lake处理器的基础上，Intel拿掉了两个CPU计算核心、GPU核芯显卡，同时加入12个推理计算引擎(ICE)，彼此基于硬件同步，同时每个ICE有自己的4MB SRAM缓存来减少数据转移，并且和两个CPU核心共享一致性互连、24MB三级缓存。

Intel还设计了一个深度学习计算网格(DL Compute Grid)，作为张量引擎的它通过数据和控制总线与SRAM、VP6 DSP互连，支持FP16、INT8、INT4、INT2、INT1等类型操作，其中DSP还可以处理一些特殊的算法。

CPU核心仍然是标准的Sunny Cove架构，支持AVX-512、VNNI指令集，可加速卷积神经网络，而完全继承的FIVR电压调节器可动态调整功耗，优先满足最需要的硬件单元。

内置两个LPDDR4X内存控制器，整合封装一颗内存芯片与之配合，传输带宽4.2GT/s(68GB/s)，并支持带内ECC，但容量未公布。

NNP-I与系统的通信通道走的是PCIe 3.0 x4或者PCIe 3.0 x8，带宽不是事儿，但没有用NVMe协议，只是标准的PCIe界面。

TDP功耗非常灵活，低可至10W，高可达50W，完全视性能需要而定，作为扩展卡也不受M.2 15W的限制。根据不同功耗配置，INT8整数能效在2-4.8TOP/s范围内。

Intel表示，10W TDP功耗下跑ResNet500，每分钟推理数可达3600，等于效率高达4.8TOP/s，还是相当高的。

软件方面，Intel会提供相应的开发工具，帮助负载将推理工作完全转移到加速器上，完成后再通知至强CPU进行下一步处理，从而使得至强CPU不再需要通过PCIe总线和其他加速器彼此通信、转移数据，大大节省计算资源和功耗。

Intel NNP-I目前已经试产，将在年底投入规模量产并出货，而且后续还有两代新品正在设计中……

登录查看更多

相关内容

神经网络推理

关注 1

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

专知会员服务

61+阅读 · 2020年5月31日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

专知会员服务

58+阅读 · 2020年5月4日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

专知会员服务

61+阅读 · 2019年12月29日

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

专知会员服务

61+阅读 · 2019年12月9日

【BAAI 北京智源大会】类脑神经形态智能芯片，蔡一茂 / 北京大学教授，智源研究员

专知会员服务

16+阅读 · 2019年11月19日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

韩松等人提出NN设计新思路：训练一次，全平台应用

机器之心

8+阅读 · 2019年8月30日

200～1000+fps！谷歌公布亚毫秒级人脸检测算法BlazeFace，面向移动GPU

极市平台

14+阅读 · 2019年7月22日

特斯拉首席设计师150页PPT详解其全自动驾驶芯片

智能交通技术

15+阅读 · 2019年5月1日

特斯拉首席设计师150页PPT详解其全自动驾驶芯片｜厚势汽车

厚势

10+阅读 · 2019年4月30日

特斯拉完全自动驾驶FSD芯片特点｜厚势汽车

厚势

4+阅读 · 2019年4月23日

阿里云发布机器学习平台PAI v3.0

雷锋网

13+阅读 · 2019年3月22日

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

AI前线

15+阅读 · 2018年7月13日

上海交大团队：如何用TVM优化ARM架构GPU，在移动端实现快速深度学习

论智

5+阅读 · 2018年1月17日

业界 | 华为推出新型HiSR：移动端的超分辨率算法

机器之心

7+阅读 · 2017年11月24日

终于！谷歌移动端深度学习框架 TensorFlow Lite 正式发布

开源中国

3+阅读 · 2017年11月16日

Multi-Task Self-Supervised Learning for Disfluency Detection

Arxiv

5+阅读 · 2019年8月15日

Open Domain Event Extraction Using Neural Latent Variable Models

Arxiv

4+阅读 · 2019年6月17日

Reverse Attention for Salient Object Detection

Arxiv

11+阅读 · 2019年4月15日

Fire SSD: Wide Fire Modules based Single Shot Detector on Edge Device

Arxiv

3+阅读 · 2018年10月16日

Efficient Dense Modules of Asymmetric Convolution for Real-Time Semantic Segmentation

Arxiv

9+阅读 · 2018年9月17日

MnasNet: Platform-Aware Neural Architecture Search for Mobile

Arxiv

4+阅读 · 2018年7月31日

Single-Shot Object Detection with Enriched Semantics

Arxiv

11+阅读 · 2018年4月8日

Polypus: a Big Data Self-Deployable Architecture for Microblogging Text Extraction and Real-Time Sentiment Analysis

Arxiv

3+阅读 · 2018年1月11日

SSD: Single Shot MultiBox Detector

Arxiv

5+阅读 · 2016年12月29日

Caffeinated FPGAs: FPGA Framework For Convolutional Neural Networks

Arxiv

10+阅读 · 2016年9月30日

VIP会员