PyTorch创始人：Transformer太火很不好，AI易撞墙

会员服务 ·

PyTorch创始人：Transformer太火很不好，AI易撞墙

2022 年 10 月 3 日 机器之心

选自BusinessInsider

机器之心编译

编辑：陈萍、杜伟

Souminth Chintala 担心 Transformer 可能导致人工智能碰壁。

2017 年 Transformer 首次亮相，便迅速在 AI 领域扩散开来，CV、NLP 等任务都有其身影，越来越多的研究人员投入其中。

要说 Transformer 有多厉害，比如 OpenAI 重磅推出的 GPT-3，就是基于 Transformer 实现的。至于传播速度方面，短短 5 年，Transformer 便在 TensorFlow 、PyTorch 等主流深度学习框架支持的 AI 程序中占据一席之地。

可别小看这 5 年，假如我们把机器学习比作一个世界，毫不夸张地说，它们的 5 年相当于我们的半个世纪。

不过与高调宣传 Transformer 的学者不同，这次 PyTorch 创始人、Meta 杰出工程师 Soumith Chintala 却唱起了反调，并警告说，Transformer 如此流行，可能是一把双刃剑。

他认为，到今天为止， Transformer 已经 5 年了，这期间还没有可替代的研究出现。他表示，对占主导地位的 AI 方法（此处指 Transformer）的强烈认可，可能会产生意想不到的后果，越来越多的 Transformer 专用硬件可能会使新策略更难以流行。

Soumith Chintala

至于 Soumith Chintala 为何会有上述结论，他首先从硬件进行举例。

专用 AI 硬件不断出现，其他技术将很难出头

Transformer 自从在论文《 Attention Is All You Need 》中被首次提出，之后便在很多地方都能看到它的身影。

相应地，为 AI 定制专门的硬件开始流行起来。在 GPU 方面，英伟达一直占据重要地位，他们还发布了一个名为 Hopper 的架构，其名称来自于计算机科学先驱 Grace Hopper，该架构专门用于 Transformer。

英伟达甚至还基于 Transformer，专门优化了 H100 加速卡的设计，提出了 Transformer Engine，它集合了新的 Tensor Core、FP8 和 FP16 精度计算，以及 Transformer 神经网络动态处理能力，可以将此类机器学习模型的训练时间从几周缩短到几天。

Transformer Engine 使用每层统计分析来确定模型每一层的最佳精度（FP16 或 FP8），在保持模型准确率的同时实现最佳性能。

英伟达首席执行官黄仁勋在最近的财报电话会议上表示，Hopper 将是其战略的重要组成部分（不过，可以肯定的是，英伟达是一家规模庞大的公司，其产品远不止 Hopper）。黄仁勋还表示：预计 Hopper 将成为未来增长的下一个跳板。他还表示 Transformer 这个新模型的重要性不能被低估，也不能被夸大。

不过，英伟达一方面推出了专为 Transformer 设计的产品，同时也提供了一系列适合多种不同型号的产品，而且可能已经为新技术的出现做好了准备。尽管如此，硬件专业化仍存在锁定现代用例的风险，而不是启用新兴用例。

Chintala 对此表示，如果像英伟达这样的供应商将硬件定制得更适用于当前范式，那么其他想法将更难出头。

不止硬件，更多定制和特定于领域的技术不断出现，如谷歌的张量处理单元、Cerebras Wafer Scale 引擎等都被提出来，这进一步限制了其他技术的发展。

Chintala 还提到，最近一段时间，AI 圈一直流行着这样一种说法「PyTorch 在受欢迎程度上超越谷歌的 TensorFlow 」，对于这一结论，Chintala 是拒绝的。

Chintala 表示，PyTorch 不是为了抢走 TensorFlow 的「午餐」而诞生的，它们有各自的优点，这两种框架各自擅长不同的任务。在研究界，PyTorch 有很好的市场份额，但在其他领域，就很难说了。

不过，谷歌也意识到了 PyTorch 的威胁，他们悄悄地开发一个机器学习框架，JAX（曾是「Just After eXecution」的首字母缩写，但官方说法中不再代表任何东西），许多人将其视为 TensorFlow 的继承者。