PyTorch创始人:Transformer太火很不好,AI易撞墙

2022 年 10 月 3 日 机器之心

选自BusinessInsider

机器之心编译
编辑:陈萍、杜伟
Souminth Chintala 担心 Transformer 可能导致人工智能碰壁。

2017 年 Transformer 首次亮相,便迅速在 AI 领域扩散开来,CV、NLP 等任务都有其身影,越来越多的研究人员投入其中。


要说 Transformer 有多厉害,比如 OpenAI 重磅推出的 GPT-3,就是基于 Transformer 实现的。至于传播速度方面,短短 5 年,Transformer 便在 TensorFlow 、PyTorch 等主流深度学习框架支持的 AI 程序中占据一席之地。


可别小看这 5 年,假如我们把机器学习比作一个世界,毫不夸张地说,它们的 5 年相当于我们的半个世纪。


不过与高调宣传 Transformer 的学者不同,这次 PyTorch 创始人、Meta 杰出工程师 Soumith Chintala 却唱起了反调,并警告说,Transformer 如此流行,可能是一把双刃剑


他认为,到今天为止, Transformer 已经 5 年了,这期间还没有可替代的研究出现。他表示,对占主导地位的 AI 方法(此处指 Transformer)的强烈认可,可能会产生意想不到的后果,越来越多的 Transformer 专用硬件可能会使新策略更难以流行。


Soumith Chintala


至于 Soumith Chintala 为何会有上述结论,他首先从硬件进行举例。


专用 AI 硬件不断出现,其他技术将很难出头


Transformer 自从在论文《 Attention Is All You Need 》中被首次提出,之后便在很多地方都能看到它的身影。


相应地,为 AI 定制专门的硬件开始流行起来。在 GPU 方面,英伟达一直占据重要地位,他们还发布了一个名为 Hopper 的架构,其名称来自于计算机科学先驱 Grace Hopper,该架构专门用于 Transformer。


英伟达甚至还基于 Transformer,专门优化了 H100 加速卡的设计,提出了 Transformer Engine,它集合了新的 Tensor Core、FP8 和 FP16 精度计算,以及 Transformer 神经网络动态处理能力,可以将此类机器学习模型的训练时间从几周缩短到几天。


Transformer Engine 使用每层统计分析来确定模型每一层的最佳精度(FP16 或 FP8),在保持模型准确率的同时实现最佳性能。


英伟达首席执行官黄仁勋在最近的财报电话会议上表示,Hopper 将是其战略的重要组成部分(不过,可以肯定的是,英伟达是一家规模庞大的公司,其产品远不止 Hopper)。黄仁勋还表示:预计 Hopper 将成为未来增长的下一个跳板。他还表示 Transformer 这个新模型的重要性不能被低估,也不能被夸大。


不过,英伟达一方面推出了专为 Transformer 设计的产品,同时也提供了一系列适合多种不同型号的产品,而且可能已经为新技术的出现做好了准备。尽管如此,硬件专业化仍存在锁定现代用例的风险,而不是启用新兴用例。


Chintala 对此表示,如果像英伟达这样的供应商将硬件定制得更适用于当前范式,那么其他想法将更难出头。


不止硬件,更多定制和特定于领域的技术不断出现,如谷歌的张量处理单元、Cerebras Wafer Scale 引擎等都被提出来,这进一步限制了其他技术的发展。


Chintala 还提到,最近一段时间,AI 圈一直流行着这样一种说法「PyTorch 在受欢迎程度上超越谷歌的 TensorFlow 」,对于这一结论,Chintala 是拒绝的。


Chintala 表示,PyTorch 不是为了抢走 TensorFlow 的「午餐」而诞生的,它们有各自的优点,这两种框架各自擅长不同的任务。在研究界,PyTorch 有很好的市场份额,但在其他领域,就很难说了。


不过,谷歌也意识到了 PyTorch 的威胁,他们悄悄地开发一个机器学习框架,JAX(曾是「Just After eXecution」的首字母缩写,但官方说法中不再代表任何东西),许多人将其视为 TensorFlow 的继承者。



曾一度有传言说谷歌大脑和 DeepMind 在很大程度上放弃了 TensorFlow,转而使用 JAX。谷歌很快出来打假,表示「我们继续开发 TensorFlow ,并将其作为一流的应用 ML 平台,与 JAX 并肩推动 ML 研究发展。」


至于 JAX,其擅长将复杂的机器学习任务分散到多个硬件上,极大地简化了现有工具,使其更容易管理日益庞大的机器学习问题。


Chintala 表示:「我们正在向 JAX 学习,我们也在 PyTorch 中添加了这些内容。显然,JAX 在某些方面做得更好。Pytorch 确实擅长很多事情,这就是它成为主流的原因,人们用它可以做很多事情。但作为主流框架并不意味着它可以覆盖所有内容。」


原文链接:

https://www.businessinsider.com/souminth-chintala-pytorch-tensorflow-transformers-innovation-lag-2022-9



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
1

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
深度学习简史:从感知机到Transformer
专知会员服务
96+阅读 · 2022年6月1日
【ICLR2022】Transformers亦能贝叶斯推断
专知会员服务
24+阅读 · 2021年12月23日
FPGA加速深度学习综述
专知会员服务
66+阅读 · 2021年11月13日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
专知会员服务
44+阅读 · 2020年3月6日
PyTorch和Meta「分家」!以后归Linux基金会管了
新智元
0+阅读 · 2022年9月14日
2022年,PyTorch在AI顶会的占比已经上80%了
机器之心
0+阅读 · 2022年3月14日
经验分享:如何在创业中,用上GPT-3等AI大模型
THU数据派
1+阅读 · 2022年3月2日
2022年了,PyTorch和TensorFlow你选哪个?
极市平台
2+阅读 · 2021年12月20日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年11月23日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
17+阅读 · 2021年3月29日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
21+阅读 · 2018年8月30日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年11月23日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
17+阅读 · 2021年3月29日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
21+阅读 · 2018年8月30日
Top
微信扫码咨询专知VIP会员