会员服务 ·

英伟达「核弹级」GPU A100不敌AMD？比起算力，CUDA才是核心武器

2021 年 11 月 14 日 新智元

新智元报道

编辑：小咸鱼好困

【新智元导读】AMD自从进军GPU领域后，一直想要挑战一下英伟达在GPU市场的领先地位。周一，AMD发布了最新一代数据中心GPU Instinct MI200加速器，声称其最高性能是英伟达A100 GPU的4.9倍。但Reddit网友并不买账，他们认为AMD在人工智能方面所做的工作比英伟达少得多，尤其是难以和CUDA抗衡这一点。

在GPU方面，英伟达一直是公认的王者，一直被模仿，从未被超越。

从去年下半年到今年8月，英伟达市值一路攀升，创下5080亿美元的记录，位居半导体行业第二位，而英伟达联合创始人、CEO兼总裁黄仁勋的身价也涨至190亿美元。

英伟达 A100 VS AMD MI200

2020年11月，英伟达推出了A100 80GB新卡。

该芯片是基于英伟达的Ampere图形架构，旨在通过实现更好的实时数据分析，帮助企业和政府实验室更快地做出关键决策。

A100芯片为研究人员和工程师提供了更快的速度和更高的性能，用于人工智能和科学应用。

它提供超过每秒2 terabytes的内存带宽，这使得系统能够更快地将数据提供给GPU。

在人工智能领域，英伟达再次提高了门槛，几乎没有任何竞争对手能够跨越这一障碍。

今年4月的NVIDIA GTC 2021大会上，专攻GPU的英伟达推出了基于Arm架构的中央处理器（CPU）——Grace，用于大规模人工智能和高性能计算应用。

黄仁勋表示，「这是英伟达第一个数据中心CPU，专为大型应用建立」。

基于Grace的系统与NVIDIA GPU紧密结合，性能将比目前最先进的NVIDIA DGX系统（在x86 CPU上运行）高出10倍。

而AMD自从进军GPU领域后，一直想要挑战一下英伟达在GPU市场的领先地位。

同是去年11月，AMD曾经发布过专为机器学习和高性能计算优化的GPU架构：CDNA，采用7nm制程和第二代Infinity架构。

在当时，采用CDNA架构的AMD Instinct MI100就已经可以达到11.5TFlops的算力，也是当时第一个超过10TFlops（FP64）的数据中心GPU。

而在今年11月8号的发布会上，AMD推出全新的CDNA 2 GPU架构和MI200 Instinct图形处理器，要与英伟达的A100芯片一较高下。

除了采用了最新的第三代Infinity架构以外，MI200芯片也将包含多达580亿个晶体管，比Nvidia的A100中542亿个晶体管略多。

根据AMD发布的规格，MI200的时钟频率将高达1.7GHz，而MI100的时钟频率为1.5GHz。内存也升级为HBM2e，运行速度为3.2Gbps，结合双芯片GPU布局意味着MI200的整体带宽从1.2TBps增加到3.2TBps。

凭借更高的时钟、双GPU和加倍的FP64速率，MI200的FP64向量峰值速率为47.9TFLOPS。比Nvidia A100的FP64向量计算的速率快了4.9倍。

MI200还增加了FP64矩阵的支持，其峰值速率是向量单元速率的两倍：95.7TFLOPS。同样，较Nvidia A100的FP64向量性能19.5TFLOPS，也提升4.9倍。

看起来，两个4.9倍，AMD这是要把英伟达按在地上摩擦了？

Wait a minute!

纸面上的数据虽然好看，但是实际运行机器学习任务的时候可不一定能发挥全部功力。

由于AMD的MI200是通过自家的ROCm来支持TensorFlow、PyTorch和ONNX等机器学习框架，并没有CUDA，所以在可用性上，还需要留一个问号。

CUDA VS ROCm

在机器学习领域，有句话叫：「造轮子容易，建生态难」。

其实，换句话说就是，造出一辆能开的汽车，但是却不把马路修好，性能再好的车也没办法发挥出来。

AMD的GPU硬件近几年固然是进步神速，从数据上，也有了赶超英伟达的势头。

但AMD的GPU一直受人诟病的，并不是其性能，而是配套生态太过难用，连数据科学家和机器学习工程师都需要花不少时间去配置环境，新手小白更是难以上手。

就CUDA这一点，就是AMD的ROCm无法逾越的高峰。

最近，ROCm发布了最新的4.5版本，只是这issue的数量有点感人。

https://github.com/RadeonOpenCompute/ROCm

虽说ROCm一直在为Tensorflow和Pytorch这些主流框架进行适配。

Tensorflow-rocm可以直接通过pip安装，Pytorch的支持其实也一直在进行着，至少2020年就可以编译出支持ROCm的Pytorch-1.6.0和1.7.0版本。

其他框架比如mxnet其实也有过适配，可能因为资源不足，也停更好久了。

开源社区对于ROCm可以说是爱恨交加。

爱的是终于有开源的项目来挑战CUDA了，恨的是ROCm问题实在太多，不支持Windows，不支持MacOS，Linux目前官方也只是选择性地支持。

GPU型号更是支持得极其有限，正式支持的消费级GPU竟然只有好几年之前的Vega 64。

而RX500系列是可能支持，但不保证。

不过有网友表示，最新版本其实已经可以支持GFX1030架构了，也就是RX6800、6800XT、6900XT。

要问ROCm官方为什么不多适配一些显卡，原因可能有很多，测试经验不足，没有人力去测试太多显卡等等。

所以，这种情况就导致了过去十年AI的大部分进步都是使用CUDA库取得的。

而AMD也确实输在了没有CUDA的替代方案，甚至AMD都不支持自己的平台。

如果买英伟达的GPU，马上就可以编写和运行深度学习的代码，而如果用了AMD的GPU，代码能不能跑起来都是不确定的。

比如你有一张RX580，那么首先就需要了解哪些主板和CPU支持PCIe Atomics，如果不支持的话设备都无法正常加载。

然后是安装3.5.1版本的ROCm，没错，对GFX803架构的显卡来说，新版本的ROCm反而有bug没被解决。这会导致使用TenserFlow和PyTorch时卡死，或者loss变成NaN。

此外还要知道如何安装对应低版本的ROCm，或者自己知道怎么打补丁，然后自己编译。

AMD仍然有很长的路要走，尤其是在软件生态的适配和优化上，这注定是一个繁琐费时的工作，可能还需要几代才能稳定下来。

对此，有网友评价道：「英伟达是一家为其软件制造硬件的软件公司，而AMD是一家为其硬件制造一些软件的硬件公司。」

不过，既然AMD已经做出了非常出色的GPU硬件，还是应该期望ROCm能够越来越好。

毕竟，AMD如果能给出CUDA以外的另一个选择，对机器学习和深度学习的工作者和爱好者来说，绝对是一种福音。

参考资料：

本文引用了以下知乎网友的回答：

「三十一级火法」

https://zhuanlan.zhihu.com/p/80531243

「Huisheng Xu」

https://www.zhihu.com/question/447729368/answer/1765993650

https://www.zhihu.com/question/434685319/answer/1627612611

登录查看更多

相关内容

AMD

关注 3

超威半导体公司（英语：Advanced Micro Devices, Inc.，简称AMD）是一家专注于微处理器与图形处理器设计和生产的跨国公司，总部位于美国加州旧金山湾区硅谷内的Sunnyvale。

【Nature. Mach. Intell. 】GPU计算和深度学习在药物发现中的变革作用

专知会员服务

11+阅读 · 2022年4月13日

6G物理层AI关键技术白皮书（2022）

专知会员服务

46+阅读 · 2022年3月21日

唐杉博士：人工智能芯片发展及挑战

专知会员服务

48+阅读 · 2021年12月4日

FPGA加速深度学习综述

专知会员服务

72+阅读 · 2021年11月13日

2021—2022中国人工智能计算力发展评估报告，36页pdf

专知会员服务

71+阅读 · 2021年11月6日

边缘机器学习，21页ppt

专知会员服务

84+阅读 · 2021年6月21日

【干货书】Python机器学习，361页pdf

专知会员服务

270+阅读 · 2021年2月25日

知识图谱推理，50页ppt，Salesforce首席科学家Richard Socher

专知会员服务

111+阅读 · 2020年6月10日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【2020新书】JavaScript神经网络在TensorFlow.js中的深度学习，561页pdf，Deep Learning with JavaScript

专知会员服务

54+阅读 · 2020年2月4日

CUDA编程模型都改了！英伟达架构师团队撰文详解：Hopper为啥这么牛？

新智元

0+阅读 · 2022年4月2日

给英伟达1.6万亿个晶体管，它就能承托全球互联网流量

大数据文摘

0+阅读 · 2022年3月24日

扔掉老破V100、A100，英伟达新一代计算卡H100来了！

夕小瑶的卖萌屋

0+阅读 · 2022年3月24日

20 个 GPU 可承载相当于全球互联网流量、Grace CPU 超级芯片现世，英伟达这届 GTC 发布了什么？

CSDN

0+阅读 · 2022年3月23日

英伟达的核弹级GPU来了：800亿个晶体管，20块就可承托全球互联网流量

AI前线

0+阅读 · 2022年3月23日

英伟达新核弹GPU：4nm制程800亿晶体管，20张即可承载全球互联网流量，全新Hopper架构太炸了

量子位

1+阅读 · 2022年3月23日

老黄狂拼CPU！英伟达掏出800亿晶体管显卡，外加世界最快AI超算Eos

新智元

0+阅读 · 2022年3月22日

英伟达新架构发布，AI芯片上限提升了九倍，20块带宽就等于全球互联网

机器之心

0+阅读 · 2022年3月22日

性能是A100 2.4倍，AMD官宣两款HPC新品，还拿下了Meta

机器之心

0+阅读 · 2021年11月9日

英伟达颠覆CPU！长发黄仁勋杀入英特尔地盘，Arm架构CPU性能高10倍

新智元

1+阅读 · 2021年4月13日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于GPU的CSAMT三维正演的并行外推多网格法研究

国家自然科学基金

0+阅读 · 2014年12月31日

GPU程序访存行为分析和优化关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向大规模分布式内存的非结构化数据管理系统关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

CPU-GPU耦合架构下数据库连接技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于GPU集群层次式并行计算的3D芯片电热综合分析与综合优化

国家自然科学基金

0+阅读 · 2012年12月31日

大规模平面波赝势密度泛函理论的异构计算算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

高性能CPU/GPU协同并行可视化技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

CPU/GPU协同并行计算在第一性原理电子输运模拟中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

基于图形处理器的高性能计算

国家自然科学基金

0+阅读 · 2009年12月31日

Fast Circular Pattern Matching

Arxiv

0+阅读 · 2022年4月20日

3D Parametric Wireframe Extraction Based on Distance Fields

Arxiv

0+阅读 · 2022年4月20日

When Is Partially Observable Reinforcement Learning Not Scary?

Arxiv

0+阅读 · 2022年4月19日

Quantum Bayesian Statistical Inference

Arxiv

1+阅读 · 2022年4月19日

An Efficient Algorithm for the Proximity Connected Two Center Problem

Arxiv

0+阅读 · 2022年4月19日

MDS and AMDS symbol-pair codes are constructed from repeated-root codes

Arxiv

0+阅读 · 2022年4月18日

MRXCAT-CDTI: A Numerical Cardiac Diffusion Tensor Imaging Phantom

Arxiv

0+阅读 · 2022年4月17日

An Exploratory Study of Attestation Mechanisms for Trusted Execution Environments

Arxiv

1+阅读 · 2022年4月16日

Reducing the Depth of Quantum FLT-Based Inversion Circuit

Arxiv

0+阅读 · 2022年4月16日

Investigation of Bare-bones Algorithms from Quantum Perspective: A Quantum Dynamical Global Optimizer

Arxiv

0+阅读 · 2022年4月15日

VIP会员