没有「钞能力」，如何打破AI实践中的资源限制与壁垒？

2022 年 1 月 26 日 机器之心

深度学习模型和数据集的规模增长速度已经让 GPU 算力也开始捉襟见肘。

2021 年初，谷歌发布了参数量为 1.6 万亿的语言模型 Swith Transformer，将 GPT-3 创下的参数量记录（1750 亿）推至新高。

而在谷歌将工业界新宠 AutoML 的思想应用到 NLP 领域找到进化版的 Transformer 的工作中，其用于英语到德语翻译的 BLEU 分数提高了 0.1，却花费了 3.2 万 TPU 小时，云计算费高达 15 万美元。如果把模型部署出去进行推理，随着时间的增长，它的能耗是百倍、千倍的增长，GPU 集群训练、推理背后巨大的能源消耗无法令人忽视。

这些大模型的出现让普通研究者越发绝望：没有「钞能力」、没有一大堆 GPU 就做不了 AI 研究了吗？研究者们开始思考：如何让这些大模型的训练变得更加接地气？也就是说，怎么用更少的卡训练更大的模型？

为了解决这个问题，来自微软、加州大学默塞德分校的研究者提出了一种名为「 ZeRO-Offload 」的异构深度学习训练技术，可以在单个 GPU 上训练拥有 130 亿参数的深度学习模型，让普通研究者也能着手大模型的训练。ZeRO-Offload 通过将数据和计算从 GPU 卸载到 CPU，以此减少神经网络训练期间 GPU 内存占用的方法，该方法提供了更高的训练吞吐量，并避免了移动数据和在 CPU 上执行计算导致的减速问题。

在算力方面，随着人工智能应用日益成熟，文本、图片、音频、视频等非结构化数据的处理需求呈指数级增长，数据处理过程从通用计算逐步向异构计算过度，GPU也不再是唯一的选择。

前几年关于芯片算力这一概念的讨论，多认为理论上的计算峰值就是算力，但现在，业内有观点指出，在讨论算力的演进时应该少关注器件利用率。

传统芯片性能指的是PPA，包括Power、Performance、Aera（性能、功耗、面积)，即一秒钟执行多少指令，在AI芯片上则是讨论每瓦有多少AI计算，比较主流的指标是TOPS/Watt和TOPS/$。

但算法在不断演进，器件的利用率由架构和编译器决定，架构负责把算法转化为相对架构而言最优的质量、序列和执行模式。算法+芯片需进行联合优化，才能兼顾计算架构和算法设计。

众所周知，卷积操作（convolution）与自注意力操作（self-attention）是深度学习两大核心的基础网络计算单元（或称为模型算子）。卷积操作通过线性乘子，提取图像局部特征；自注意力操作通过高阶乘子运算，提取图像全域 / 局部的特征关联特性。

两种算子成为深度学习两大重要网络架构演化——CNN 与 Transformer 的计算基石。两种算子在图像特征提取与语义抽象方面的互补性不言而喻：线性 vs. 高阶，局部 vs. 全局。因此，能否设计一种包含这两种操作的融合算子并使其发挥互补优势，一直是深度学习架构研究者热衷的研究方向之一。然而，由于卷积运算与自注意力运算在计算模式上的异构性，这项任务存在巨大的挑战。

粗粒度的组合（本质上就是两路计算并联）会导致其组合后网络形态可用性下降。具体来说，卷积和 self-attention 运算模式存在较大差异，两者同时存在会导致网络结构不规则，进而影响网络推理效率，并不为目前一些工业界通用的芯片计算架构所友好支持。同时组合后的算子在算力上也存在巨大的挑战。

针对这些挑战，2021年6月上海交大 - 华为海思联合团队在 arXiv 上发表了「X-volution: On the Unification of Convolution and Self-attention」，首次在计算模式上统一了这两大基础算子，并在推理阶段归并成一个简单的卷积型算子：X-volution。

AI的实际应用尚处于早期，对于大多的AI开发者来说，「从无到有」比「从有到优」要重要得多。能在有限的资源下跑通业务流程，比跑得姿态优雅要更重要，模型精度虽然是越准确越好，但当精度达到可用需求之后，精度就不再起决定性作用。

在这样的背景下，打破 AI 实践中的资源限制与壁垒的重要性也越发显著。在即将到来的一年里，在 AI 算法的工程优化与性能提升的道路上，将有哪些值得探索的方向呢？

2022 年 1 月 24 日晚 7 点，在机器之心年度特别策划「驱动未来的 AI 技术 —— 2021-2022 年度 AI 技术趋势洞察」的「工程专场」来自华为昇腾 CANN 的首席架构师闫长江老师、一流科技 OneFlow 创始人袁进辉博士及北京大学数据与智能实验室崔斌教授指导的河图团队负责人苗旭鹏，三位嘉宾将做客机器之心「2020-2021 年度 AI 技术趋势洞察」直播间，分别通过技术报告介绍自监督深度学习、几何深度学习的最新进展与思考、并共同就「如何突破 AI 实践中的资源限制与壁垒？」等话题进行探讨。

嘉宾简介

技术报告：浅谈异构计算架构 CANN 在软硬件结合优化性能提升上的几点设计思路

闫长江，华为昇腾 CANN 首席架构师

闫长江，华为昇腾 CANN 首席架构师，负责昇腾 AI 处理器与异构计算架构 CANN 的架构设计，支撑华为昇腾处理器的市场商用，在数据通信和计算机体系架构设计领域有超过 20 年的行业经验积累。

技术报告：北大河图在稀疏大模型训练架构上的几点探索

北京大学数据与智能实验室河图团队负责人苗旭鹏

苗旭鹏，北京大学计算机学院 2017 级博士生，来自于北京大学数据与智能（PKU-DAIR）实验室，师从崔斌教授。他的研究兴趣主要包括机器学习 / 深度学习系统、分布式优化、GPU 并行计算、图表示学习等，在 SIGMOD、VLDB、KDD 等国际顶级会议和期刊上发表了 10 余篇学术论文。他是北大自研的分布式深度学习系统 - 河图（Hetu）的设计者和负责人，此前他还参与了开发了工业级开源分布式机器学习系统 Angel。

趋势圆桌：如何打破 AI 实践中的资源限制与壁垒？

闫长江，华为昇腾 CANN 首席架构师
苗旭鹏，北京大学数据与智能实验室河图团队负责人（崔斌教授指导）
袁进辉，一流科技 OneFlow 创始人

袁进辉，2008 年于清华大学计算机系获得工学博士学位（优秀博士学位论文奖），原微软亚洲研究院主管研究员（院长特别奖获得者），于 2017 年创立北京一流科技有限公司，致力于打造新一代深度学习框架，兼任之江实验室天枢开源开放平台架构师，北京智源人工智能研究院大模型技术委员会委员。

2022 年 1 月 24 日 —— 1 月 28 日精彩议程如下

作为「与 AI 俱进，化时光为翎」机器之心 2021-2022 跨年特别策划中的重要组成部分，「机器之心 2021-2022 年度 AI 趋势大咖说」聚焦「驱动未来的 AI 技术」与「重塑产业的 AI 科技」，推出线上分享，邀请行业精英、读者、观众共同回顾 2021 年中的重要技术和学术热点，盘点 AI 产业的年度研究方向以及重大科技突破，展望 2022 年度 AI 技术发展方向、AI 技术与产业科技融合趋势。

2022 年 1 月 24 日（周一）至 1 月 28 日（周五）每晚 7 点至 9 点，近 20 位高校教授、技术专家及技术企业高管将做客机器之心「2020-2021 年度 AI 技术趋势洞察」直播间，共同探讨「通往第三代人工智能的理论之路如何走？」、「通用（大）模型的最后一公里」、「如何突破 AI 实践中的资源限制与壁垒？」、「构建元宇宙基础设施的 AI 技术」和「通向可信人工智能的技术路径」五个与 AI 技术人息息相关话题，洞察 AI 技术在「AI 算法理论」、「ML 模型架构」、「AI 算法工程化」及「热点 AI 应用技术」四大方面的发展趋势与潮水所向。关注机器之心机动组视频号，1 月 24 日晚 7 点开播！