Neural machine translation - using neural networks to translate human language - is an area of active research exploring new neuron types and network topologies with the goal of dramatically improving machine translation performance. Current state-of-the-art approaches, such as the multi-head attention-based transformer, require very large translation corpuses and many epochs to produce models of reasonable quality. Recent attempts to parallelize the official TensorFlow "Transformer" model across multiple nodes have hit roadblocks due to excessive memory use and resulting out of memory errors when performing MPI collectives. This paper describes modifications made to the Horovod MPI-based distributed training framework to reduce memory usage for transformer models by converting assumed-sparse tensors to dense tensors, and subsequently replacing sparse gradient gather with dense gradient reduction. The result is a dramatic increase in scale-out capability, with CPU-only scaling tests achieving 91% weak scaling efficiency up to 1200 MPI processes (300 nodes), and up to 65% strong scaling efficiency up to 400 MPI processes (200 nodes) using the Stampede2 supercomputer.


翻译:神经机器翻译 — 使用神经网络翻译人文语言 — 是一个积极研究的领域,探索新的神经型和网络型态,以大幅提高机器翻译性能为目标。 目前最先进的方法,如多头关注型变压器,需要非常庞大的翻译机和许多时代才能产生质量合理的模型。 最近在多个节点上将官方TensorFlow“ Transfor”模型平行化的尝试由于过度使用记忆和在进行 MPI 集成时出现记忆错误而遇到了路障。 本文描述了对基于 Horovod MPI 的分布式培训框架所作的修改, 以减少变压器模型的记忆用量, 其方法是将假设的发压器转换为密度高的发压器, 并随后以密度梯度减低的方式取代稀释的稀释梯度。 其结果是, 升级能力大幅提升, 仅使用CPU的升级测试达到91%的微缩缩缩缩缩到 1200 MPI 进程( 300 节点), 并高达65% 将效率大幅提升到400 MPI 进程 (200 节点) 。

1
下载
关闭预览

相关内容

机器翻译(Machine Translation)涵盖计算语言学和语言工程的所有分支,包含多语言方面。特色论文涵盖理论,描述或计算方面的任何下列主题:双语和多语语料库的编写和使用,计算机辅助语言教学,非罗马字符集的计算含义,连接主义翻译方法,对比语言学等。 官网地址:http://dblp.uni-trier.de/db/journals/mt/
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
85+阅读 · 2020年5月11日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
深度神经网络机器翻译
机器学习研究会
5+阅读 · 2017年10月16日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年3月28日
VIP会员
相关VIP内容
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
85+阅读 · 2020年5月11日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
深度神经网络机器翻译
机器学习研究会
5+阅读 · 2017年10月16日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Top
微信扫码咨询专知VIP会员