OpenAI提出稀疏Transformer模型：文本、图像、声音一网打尽，将可预测序列长度提高30倍

2019 年 4 月 25 日 大数据文摘

大数据文摘编辑部出品

几个月前，OpenAI推出了一种自然语言处理模型，能够从维基百科以及亚马逊的产品评价中生产连贯的文本段落。

最近，其开放的OpenAI Five 人工智能系统在全网公开赛中放出了骄人战绩——击败了99.4%的玩家。在和3万多名人类玩家的对垒中，只输了42场。

OpenAI的大招还不止如此。今日凌晨，OpenAI发博文表示，在这些和其他研究的基础上，他们开发了一种深度神经网络稀疏 Transformer（Sparse Transformer），可以实现生成式模型，在文本、图像、声音等序列预测上都创造了新纪录。并且可预测的序列长度比之前可能的长度长了30倍。

“人工智能研究的一个现有挑战是如何对复杂数据中远距离，且较精细的相互依赖性进行建模，”OpenAI技术人员Rewon Child和软件工程师Scott Gray在博客文章中写道。“过去，在这些数据上使用的模型往往只是针对一个域专门设计的，或者是很难扩展到超过几千个元素的序列。相比之下，我们的模型可以使用上百层对有上万元素的序列进行建模，并且在多个域中实现最先进的性能。

这次稀疏 Transformer 研究的基础源于17年Google Brain设计的一种新型的网络结构，即《Attention Is All You Need》中提出的Transformer。不使用 RNN、CNN 模型，只使用 attention 机制构成的解码编码结构就达到了很好的效果。为谷歌团队于前年 6 月所提出的 NLP 经典之作，同时被 2017 NIPS 接收(2017 录取率约 20 %)，引用次数已达1566次，并还在持续增加中。

与所有深度神经网络一样， Transformer包含排列在互连层中的神经元（本质用数学函数模拟生物神经元），这些层从输入数据传入“信号”，并缓慢调整每个连接的权重。这是模型如何提取特征并学习以及如何进行预测的关键点。在 Transformer 中，每个输出元素与每个输入元素都相连，它们之间的权重是动态计算出来的，而过程称为注意力。

上图：用稀疏 Tansformer 重计算(recomputaing)注意力矩阵前后的内存使用情况。

注意力机制通常需要为每个层和每个所谓的注意头创建一个注意力矩阵，从计算的角度来看这不是特别有效。例如，包含24,000个样本的2秒音频片段或64低分辨率图像的语料库可能分别占用590GB和154GB内存，而这远远高于用于训练AI模型的GPU的负载。

OpenAI的方法通过重新计算矩阵来最小化内存使用量，上面描述的590GB的内存需求在重新计算后仅需9.2GB；154GB可压缩到2.4GB。于是，实际上最大的内存开销就变得与层数无关了，因此就允许所述模型进行“非常深”的深度来进行训练。

由于单个注意力矩阵对于庞大的数据量输入并不是特别实用，因此本文提出的深度神经网络实现了稀疏注意力模式，其中每个输出仅从输入子集计算权重，对于跨越较大子集的神经元层，通过矩阵因子分解来转换矩阵，他们认为这是保持神经网络层学习数据模式能力所必需的一步。

上图：使用稀疏Transformer生成图像

通常，实现稀疏注意力需要将查询和关键矩阵进行“切片”，因此为了简化实验，OpenAI 实现了一组块稀疏核，这些核在 GPU 上高效地执行这些操作。另外，OpenAI开源了这些内核，并在Github上提供示例稀疏注意函数。

https://github.com/openai/sparse_attention

根据OpenAI的博客介绍到，即使经过改进，自回归序列生成对于非常高分辨率的图像或视频来说仍然是不切实际的。不过，提出的优化注意力操作可能是一次有益的探索，可以和其他（如多尺度方法）方法相结合来对高维数据进行建模。

相关内容

OpenAI

关注 27

OpenAI，由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔（Peter Thiel）以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

69+阅读 · 2020年7月1日

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

专知会员服务

57+阅读 · 2020年6月29日

自然语言处理中的注意力机制，Attention in Natural Language Processing

专知会员服务

133+阅读 · 2020年5月30日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

23+阅读 · 2020年5月29日