超英伟达A100,IBM宣布全球首个7nm训练推理节能芯片,登上顶会ISSCC 2021

2 月 19 日 学术头条
超英伟达A100,IBM宣布全球首个7nm训练推理节能芯片,登上顶会ISSCC 2021

来源:机器之心


在AI计算机训练与推理领域,存在着这样一种理念:如果计算需求很大,那么为其提供动力所需的能量也将很大。这种理念也被该领域广泛接受。那么有没有可能开发出一种既可以显著提升计算能力又无需消耗过多能量的方法呢?IBM在顶会ISSCC上介绍了一种7nm训练推理节能芯片。


自动驾驶汽车、文本转语音和送货无人机,这些都是人工智能的典型应用。为了不断推动 AI 淘金热,人们一直致力于改善 AI 硬件技术的核心,即赋能深度学习的数字 AI 内核,它是人工智能的关键推动力。


在该领域的深入探索中,IBM Research 通过材料、设备、芯片架构和整体软件堆栈方面的创新,在适应 AI 系统的负载复杂性以及简化和加速性能方面取得了长足进步,从而推动具有尖端性能和无可比拟能效的下一代 AI 计算机系统的开发。

近日,在 2021 年国际固态电路虚拟会议(ISSCC)上发表的一篇新论文《A 7nm 4-Core AI Chip with 25.6TFLOPS Hybrid FP8 Training, 102.4TOPS INT4 Inference and Workload-Aware Throttling》中,IBM 团队详细介绍了全球首个采用 7nm 技术进行低精度训练与推断的节能 AI 芯片。通过其新颖的设计,该 AI 硬件加速器芯片支持多种模型类型,同时在所有模型类型上均实现了领先的能效。


IBM 表示,通过令训练更靠近边缘以及使数据更靠近来源,这一芯片技术可以扩展并用于多种商业应用,从云上的大规模模型训练到安全隐私服务。此外,这种高效节能的 AI 硬件加速器可以显著提升计算能力,包括混合云环境中的计算能力,并且无需大量的能源。

AI 模型的复杂性和适应性正在迅速扩展,现已用于药物发现、遗留 IT 应用的现代化以及为新应用编写代码等。但是,AI 模型复杂性的快速演化也增加了该技术的能耗,并且面临的一个主要问题是如何创建复杂的 AI 模型而不增加碳排放量。从历史上看,该领域已经接受了这样一种理念,即如果计算需求很大,那么为其提供动力所需的能源也将很大。

IBM 想要改变这种理念,开发出一种既可以显著提升计算能力又无需消耗过多能量的全新节能 AI 硬件加速器。

如何实现

这篇 ISSCC 论文聚焦如何创建针对所有不同 AI 模型类型的低精度训练与推断进行高度优化的芯片,且该芯片在应用层面上对质量不造成损害。

IBM 4 核 AI 芯片图示。

IBM 展示了该新芯片的多种新特性:

IBM 表示这是首个集成了超低精度混合 FP8 (HFP8) 形式的硅芯片,可以 SOTA 硅技术节点(7 nm EUV-based 芯片)训练深度学习模型。在所有不同精度条件下,其原始能效是最优的。下图 2 展示了 IBM 芯片性能与能效超过其他专用的推断和训练芯片。

图 2:该研究与其他工作的数据对比。


从上图中,我们可以看到 IBM 将该 7nm 芯片与多款芯片做了对比,包括阿里巴巴 12nm 的芯片以及英伟达的 A100。

但这并不是全部。它还是将电源管理整合到 AI 硬件加速器中的第一批芯片之一。该研究表明,通过放慢高功耗计算阶段的速度,可以在芯片的总功耗预算内最大化其性能。

最后,芯片除具有出色的峰值性能外,还具有可转化为实际应用性能的高持续利用率,这也是该芯片提高能效的关键部分。作者称,与远低于 30%的典型 GPU 利用率相比,该芯片可实现 80%以上的训练利用率和 60%以上的推断利用率。

应用前景广泛

IBM 研究员表示,这一新的 AI 核与芯片可用于多种跨行业的云与边缘应用。例如,相对于当前行业中使用的 16 位(bit)和 32 位格式,该芯片可用于 8 位视觉、语音和自然语言处理的大规模深度学习模型云训练。它们还可用于语音到文本 AI 服务、文本到语音 AI 服务、NLP 服务、金融交易欺诈检测等云推断应用程序。

自动驾驶汽车、安全摄像头和移动电话也可以从中受益,该芯片可以方便地在边缘设备上进行联邦学习,以实现定制化,保护客户的隐私、安全性和合规性。

作者希望通过这项工作建立一种全新的方式,来创建和部署可扩展性能并降低功耗的 AI 模型。

当前,该论文还未公开,我们还无法查看更多技术细节。

IBM 博客链接:https://www.ibm.com/blogs/research/2021/02/ai-chip-precision-scaling/

点击阅读原文,查看更多精彩!

喜欢本篇内容,请分享、点赞、在看
登录查看更多
0

相关内容

IBM 即国际商业机器公司(International Business Machines Corporation)。总部在纽约州阿蒙克市,1911年创立于美国,是全球最大的信息技术和业务解决方案公司。 目前拥有全球雇员 30多万人,业务遍及160多个国家和地区。

ISSCC(International Solid-State Circuits Conference)国际固态电路会议由IEEE固态电路协会(SSCS)举办,是世界学术界和工业界公认的集成电路设计领域最顶尖的盛会,也被认为是“芯片奥林匹克”。始于1953年的ISSCC通常是各个时期国际上最尖端固态电路技术最先发表之地。每年吸引超过3000名来自世界各地工业界和学术界的参会者。

ISSCC 在技术领域方面历经变更,ISSCC2020为“机器学习及人工智能”新成立了独立的技术小组分会,至此,ISSCC的技术分类达到12个分类,包括模拟设计(ANA)、电源管理(PM)、无线传输(WLS)、数据转换器(DC)、前瞻技术(TD)、射频技术(RF)、数字电路(DCT)、图像、 MEMS、医疗、显示(IMMD)、以及机器学习和人工智能(ML)、存储(MEM)、有线传输(WLN)和数字系统(DAS)。

来自英伟达的Rangha Venkatesan讲解了关于加速深度神经网络设计的方法教程,值得关注。

深度神经网络有着广泛的应用。与通用处理器相比,该领域的定制硬件优化提供了显著的性能和功耗优势。然而,实现高的TOPS/W和/或TOPS/mm2以及对可伸缩性和可编程性的要求是一个挑战任务。这个本教程介绍了各种设计方法,以在不同神经网络和新模型的效率、可扩展性和灵活性之间取得正确的平衡。它介绍了(i)设计高效计算单元、内存层次结构和互连拓扑的不同电路和体系结构技术,(ii)有效平铺计算的编译器方法,以及(iii)在目标硬件上高效执行的神经网络优化。

https://underline.io/lecture/13719-t7---%EF%BB%BFbasic-design-approaches-to-accelerating-deep-neural-networks

成为VIP会员查看完整内容
0
18

近日,全球分析师大会HAS 2020期间,华为面向全球发布《自动驾驶网络解决方案白皮书》,系统阐述未来网络架构、运维架构和其关键技术,通过网元、网络和云端的三层AI能力协同,使能网络走向极简超宽、运维迈向人机协同,为运营商和产业伙伴的数字化转型提供实践参考。

华为自动驾驶网络ADN目标架构

  华为公共开发部总裁鲁鸿驹表示:“未来十年是智能时代蓬勃发展的黄金十年,以5G、云、AI为核心代表的新技术将赋予联接智能升级的核心动能。华为呼吁业界同仁一同探索实践,通过数据与知识驱动,打造一张自动、自愈、自优的自治网络,抓住数字经济所赋予的新机遇。“

  白皮书指出,打造自动驾驶网络需做出两大转变:

  第一,从“以网元为中心”的碎片化建网模式,转变为“以业务为中心”的积木式的自治域建网模式。通过融合的“管理-控制-分析” 实现单域自治和实时闭环,平衡域内创新和域间协同的成本与速度;

  第二,产业携手定义跨域开放协同的目标架构和可编程的API标准,大幅简化跨域业务协同和保障的复杂性,降低研运成本和风险,简化集成敏捷商业,降低整个产业的协作成本。

  同时,白皮书建议以L4级(高度自动驾驶网络)作为未来架构的阶段性目标,应该具备以下四个特征:一、网络知识和专家知识数字化,从被动的人工运维走向预测性的智能运维;二、极简架构的网络基础设施,网元走向智能化;三、分层的单域自治和跨域协同,网络走向在线实时闭环;四、统一的云端AI训练、知识管理和运维设计平台,支持电信网络迭代演进。

  白皮书呼吁业界要实现自动驾驶网络的宏伟目标,需要产业各方达成共识,按照开发一代、研究一代、探索一代的方式共同制定统一标准和分级评估体系,形成高效协同的产业生态,共同助力产业智能升级和健康可持续性发展。

成为VIP会员查看完整内容
0
48
小贴士
相关论文
André Artelt,Fabian Hinder,Valerie Vaquet,Robert Feldhans,Barbara Hammer
0+阅读 · 4月7日
Zhi Chen,Chong Han,Boyu Ning,Zhongbao Tian,Shaoqiana Li
0+阅读 · 4月7日
Eleonora Mencarini,Amon Rapp,Massimo Zancanaro
0+阅读 · 4月6日
Dominika Przewlocka-Rus,Marcin Kowalczyk,Tomasz Kryjak
0+阅读 · 4月6日
Mingzhe Chen,Deniz Gündüz,Kaibin Huang,Walid Saad,Mehdi Bennis,Aneta Vulgarakis Feljan,H. Vincent Poor
0+阅读 · 4月5日
Xin Mao,Wenting Wang,Huimin Xu,Yuanbin Wu,Man Lan
3+阅读 · 2020年8月18日
Long-tail Relation Extraction via Knowledge Graph Embeddings and Graph Convolution Networks
Ningyu Zhang,Shumin Deng,Zhanlin Sun,Guanying Wang,Xi Chen,Wei Zhang,Huajun Chen
8+阅读 · 2019年3月4日
Koki Kishimoto,Katsuhiko Hayashi,Genki Akai,Masashi Shimbo,Kazunori Komatani
4+阅读 · 2019年2月8日
GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning
Jacky Liang,Viktor Makoviychuk,Ankur Handa,Nuttapong Chentanez,Miles Macklin,Dieter Fox
3+阅读 · 2018年10月24日
K. Lakshmanan
6+阅读 · 2018年4月24日
Top