【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT - 专知VIP

会员服务 ·

0

机器翻译 · BERT ·

2020 年 3 月 28 日

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

GPT-2和BERT证明了在各种自然语言处理任务中使用预训练语言模型(LMs)的有效性。然而，LM调优在应用于资源丰富的任务时常常会出现灾难性的遗忘。在这项工作中，我们介绍了一个协调的训练框架(\方法)，这是把预训练的LMs集成到神经机器翻译(NMT)的关键。我们提出的Cnmt包括三种技术: a)渐近精馏，以确保NMT模型能够保留预先训练好的知识; b)动态切换门，避免对预先训练知识的灾难性遗忘 ;c)根据预定策略调整学习进度的策略。我们在机器翻译方面的实验表明，WMT14的英德语言对中，“方法”最多可获得3个BLEU分数，甚至超过了之前最先进的训练前辅助NMT的1.4个BLEU分数。而对于包含4000万对句子的大型WMT14英法任务，我们的基本模型仍然比最先进的Transformer大模型提高了1个以上的BLEU分数。

成为VIP会员查看完整内容

24

相关内容

机器翻译

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

专知会员服务

36+阅读 · 2020年4月14日

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

专知会员服务

20+阅读 · 2020年4月14日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

哈工大SCIR

10+阅读 · 2019年11月18日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

NLP - 基于 BERT 的中文命名实体识别（NER)

NLP - 基于 BERT 的中文命名实体识别（NER)

AINLP

466+阅读 · 2019年2月10日

Towards Making the Most of BERT in Neural Machine Translation

Arxiv

5+阅读 · 2020年3月26日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

MXNET-MPI: Embedding MPI parallelism in Parameter Server Task Model for scaling Deep Learning

Arxiv

4+阅读 · 2018年1月11日

VIP会员

相关主题

相关VIP内容

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

专知会员服务

36+阅读 · 2020年4月14日

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

专知会员服务

20+阅读 · 2020年4月14日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

美海军作战管理系统：变革战场空间的二十年

【MIT博士论文】以语言为中心的医学影像理解

俄罗斯“沙希德”/“天竺葵”攻击无人机

相关资讯

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

哈工大SCIR

10+阅读 · 2019年11月18日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

NLP - 基于 BERT 的中文命名实体识别（NER)

NLP - 基于 BERT 的中文命名实体识别（NER)

AINLP

466+阅读 · 2019年2月10日

相关论文

Towards Making the Most of BERT in Neural Machine Translation

Arxiv

5+阅读 · 2020年3月26日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

MXNET-MPI: Embedding MPI parallelism in Parameter Server Task Model for scaling Deep Learning

Arxiv

4+阅读 · 2018年1月11日

微信扫码咨询专知VIP会员