会员服务 ·

0

EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量

2018 年 11 月 22 日 PaperWeekly

《使用篇章上下文提升 Transformer 翻译模型》是搜狗和清华大学天工研究院合作发表在 EMNLP 2018 的工作。机器翻译在搜狗公司的多个产品线得到广泛应用，包括搜狗英文搜索、搜狗输入法、搜狗翻译 APP、搜狗旅行翻译宝等。许多产品场景下，都需要使用句子的上下文信息来帮助翻译。

为此，我们提出了一个基于自注意力翻译模型 Transformer 的篇章级别翻译模型，利用丰富的上下文信息来帮助进行句子的翻译。与此同时，该模型对机器翻译领域篇章级别翻译质量的提升也有贡献。

篇章翻译可以解决机器翻译中的上下文依赖等问题，是机器翻译的重要研究问题，也是今年的一个热点，我们的模型是在 Transformer 效果上最好的之一。

论文方法

已有的考虑篇章上下文的 NMT 工作主要存在以下几个问题：

1. 大多数方法是基于循环神经网络的翻译模型 RNNsearch 的，无法移植到最新的基于自注意力的翻译模型 Transformer 上；

2. 大多数只在解码器端利用篇章上下文信息，而没有在源端编码时使用；

3. 只能使用篇章级别的语料进行训练，但是篇章级别的语料规模比句级别语料小的多。

我们针对以上几个问题进行改进。首先先在建模方面，我们通过在自注意力模型上添加模块来融入篇章上下文信息（图 1），其中红色部分是我们新增的模块。最左边这一列是上下文编码器，其输入是源端待翻译的句子同一个文档中的前 k 个句子。上下文编码器是一个多层结构，每一层都包含一个自注意力层和一个前向层（类似于 Transformer 的编码器）。

▲ 图1. 本文提出的模型

但是在实验中我们发现，上下文编码器只用 1 层就达到了很好的效果，使用更多层不仅不能得到更好的效果，还会对模型的计算效率产生负面影响。接下来，我们使用 multi-head 注意力机制将得到的篇章上下文的隐层表示同时融入到源端编码器和解码器中。我们将此称为上下文注意力（Context Attention）。

为了得到更好的模型，我们采用了两步训练法来利用充足的句级别语料。第一步，我们使用所有可用语料（包括句级别和篇章级别）训练一个标准的自注意力翻译模型。第二步，我们再使用篇章级别的语料训练我们加入的模块。在这一步，我们会冻结其他参数，防止模型在较小规模的篇章级别语料上过拟合。

实验结果

实验（表 1）表明，我们的方法显著好于 Transformer 和基于 RNNsearch 的篇章翻译模型。

▲ 表1. 实验结果

点击以下标题查看更多论文解读：

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文 & 源码

登录查看更多

6

相关内容

翻译模型

近期必读的五篇顶会ACL 2020【图神经网络 (GNN) 】相关论文

近期必读的五篇顶会ACL 2020【图神经网络 (GNN) 】相关论文

专知会员服务

81+阅读 · 2020年5月5日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

【北航】面向自然语言处理的预训练技术研究综述

【北航】面向自然语言处理的预训练技术研究综述

专知会员服务

114+阅读 · 2020年4月23日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知会员服务

39+阅读 · 2020年4月6日

机器翻译深度学习最新综述

机器翻译深度学习最新综述

专知会员服务

99+阅读 · 2020年2月20日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

专知会员服务

26+阅读 · 2019年11月11日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

72+阅读 · 2019年11月3日

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

PaperWeekly

21+阅读 · 2020年3月22日

论文浅尝 | 利用问题生成提升知识图谱问答

论文浅尝 | 利用问题生成提升知识图谱问答

开放知识图谱

20+阅读 · 2019年11月5日

一文读懂最强中文NLP预训练模型ERNIE

一文读懂最强中文NLP预训练模型ERNIE

AINLP

25+阅读 · 2019年10月22日

六篇 EMNLP 2019 最新公布的【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019 最新公布的【图神经网络(GNN)+NLP】相关论文

专知

178+阅读 · 2019年10月8日

论文浅尝 | 面向自动问题生成的跨语言训练

论文浅尝 | 面向自动问题生成的跨语言训练

开放知识图谱

8+阅读 · 2019年9月6日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

论文浅尝 | 基于知识库的自然语言理解 02#

论文浅尝 | 基于知识库的自然语言理解 02#

开放知识图谱

8+阅读 · 2019年2月24日

AAAI 2019：一文看全微软亚洲研究院 27 篇重点论文

AAAI 2019：一文看全微软亚洲研究院 27 篇重点论文

新智元

3+阅读 · 2019年1月26日

一种基于Sequence-to-Sequence的高质量对话生成方法

一种基于Sequence-to-Sequence的高质量对话生成方法

科技创新与创业

9+阅读 · 2017年11月13日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Doubly Attentive Transformer Machine Translation

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

Zero-Shot Object Detection by Hybrid Region Embedding

Arxiv

19+阅读 · 2018年5月17日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

Learning a Deep Listwise Context Model for Ranking Refinement

Arxiv

4+阅读 · 2018年4月16日

Recursive Feature Generation for Knowledge-based Learning

Arxiv

4+阅读 · 2018年1月31日

Parallel Tracking and Verifying

Arxiv

8+阅读 · 2018年1月30日

Arxiv

7+阅读 · 2018年1月24日

VIP会员

相关主题

相关VIP内容

近期必读的五篇顶会ACL 2020【图神经网络 (GNN) 】相关论文

近期必读的五篇顶会ACL 2020【图神经网络 (GNN) 】相关论文

专知会员服务

81+阅读 · 2020年5月5日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

【北航】面向自然语言处理的预训练技术研究综述

【北航】面向自然语言处理的预训练技术研究综述

专知会员服务

114+阅读 · 2020年4月23日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知会员服务

39+阅读 · 2020年4月6日

机器翻译深度学习最新综述

机器翻译深度学习最新综述

专知会员服务

99+阅读 · 2020年2月20日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

专知会员服务

26+阅读 · 2019年11月11日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

72+阅读 · 2019年11月3日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

PaperWeekly

21+阅读 · 2020年3月22日

论文浅尝 | 利用问题生成提升知识图谱问答

论文浅尝 | 利用问题生成提升知识图谱问答

开放知识图谱

20+阅读 · 2019年11月5日

一文读懂最强中文NLP预训练模型ERNIE

一文读懂最强中文NLP预训练模型ERNIE

AINLP

25+阅读 · 2019年10月22日

六篇 EMNLP 2019 最新公布的【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019 最新公布的【图神经网络(GNN)+NLP】相关论文

专知

178+阅读 · 2019年10月8日

论文浅尝 | 面向自动问题生成的跨语言训练

论文浅尝 | 面向自动问题生成的跨语言训练

开放知识图谱

8+阅读 · 2019年9月6日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

论文浅尝 | 基于知识库的自然语言理解 02#

论文浅尝 | 基于知识库的自然语言理解 02#

开放知识图谱

8+阅读 · 2019年2月24日

AAAI 2019：一文看全微软亚洲研究院 27 篇重点论文

AAAI 2019：一文看全微软亚洲研究院 27 篇重点论文

新智元

3+阅读 · 2019年1月26日

一种基于Sequence-to-Sequence的高质量对话生成方法

一种基于Sequence-to-Sequence的高质量对话生成方法

科技创新与创业

9+阅读 · 2017年11月13日

相关论文

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Doubly Attentive Transformer Machine Translation

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

Zero-Shot Object Detection by Hybrid Region Embedding

Arxiv

19+阅读 · 2018年5月17日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

Learning a Deep Listwise Context Model for Ranking Refinement

Arxiv

4+阅读 · 2018年4月16日

Recursive Feature Generation for Knowledge-based Learning

Arxiv

4+阅读 · 2018年1月31日

Parallel Tracking and Verifying

Arxiv

8+阅读 · 2018年1月30日

Arxiv

7+阅读 · 2018年1月24日

大家都在搜

大型语言模型

IJCAI2025教程

朱克爱德华兹家族

久别重逢话双塔

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员