AAAI 2020 | 邵晨泽：非自回归机器翻译，基于n元组的训练目标（视频解读） - 专知

会员服务 ·

0

AAAI 2020 | 邵晨泽：非自回归机器翻译，基于n元组的训练目标（视频解读）

2020 年 1 月 27 日 AI科技评论

作者 | 邵晨泽

编辑 | Camel

本文是对计算所冯洋组和腾讯微信AI团队共同完成，被 AAAI2020 录用的论文《Minimizing the Bag-of-Ngrams Difference for Non-Autoregressive Neural Machine Translation》进行解读，相关工作已开源。

论文：https://arxiv.org/pdf/1911.09320.pdf

代码： https://github.com/ictnlp/BoN-NAT

论文简介：

非自回归神经机器翻译模型（NAT）对目标词的生成进行独立的建模，从而显著地提升了翻译速度。然而，对非自回归模型来说，词级别的交叉熵损失函数不合理地要求模型输出与参考译文严格对齐，并且无法准确地建模目标端的序列依赖关系，从而导致其与模型翻译质量的相关性较弱。

基于n元组袋的训练目标

在本文中，我们提出了基于模型与参考译文间n元组袋差异的训练目标，以该训练目标来训练非自回归模型。我们克服了指数级搜索空间和n元组袋维度巨大的困难，给出了计算n元组袋差异的高效算法，使这个基于n元组袋的训练目标具有可导、高效、易于实现的优点。我们在三个机器翻译数据集上进行了实验验证，结果表明，我们的方法在WMT14英语-德语数据集上取得了约5.0个BLEU值的大幅提升，在另外两个数据集上也有显著提升。

（或者到AI研习社官网观看更多AAAI 2020 论文解读视频：http://www.mooc.ai/open?from=meeting）

文字版解读：计算所&微信AI：改进训练目标，提升非自回归模型翻译质量（已开源）

关注「AI科技评论」微信公众号，后台回复「邵晨泽@AAAI2020」下载讲解 PPT。

作者简介：

邵晨泽，中国科学院计算技术研究所2018级直博生，研究方向为自然语言处理、机器翻译等，博士期间在自然语言处理顶级会议上发表多篇论文，两篇关于非自回归模型的工作分别发表于ACL2019、AAAI2020。

更多AAAI 2020信息，将在「AAAI 2020 交流群」中进行，加群方式：添加AI研习社顶会小助手（AIyanxishe2），备注「AAAI」，邀请入群。

AAAI 2020 论文集：

AAAI 2020 论文解读会 @ 望京（附PPT下载）

AAAI 2020 论文解读系列：

01. [中科院自动化所] 通过识别和翻译交互打造更优的语音翻译模型

02. [中科院自动化所] 全新视角，探究「目标检测」与「实例分割」的互惠关系

03. [北理工] 新角度看双线性池化，冗余、突发性问题本质源于哪里？

04. [复旦大学] 利用场景图针对图像序列进行故事生成

05. [腾讯 AI Lab] 2100场王者荣耀，1v1胜率99.8%，腾讯绝悟 AI 技术解读

06. [复旦大学] 多任务学习，如何设计一个更好的参数共享机制？

07. [清华大学] 话到嘴边却忘了？这个模型能帮你 | 多通道反向词典模型

08. [北航等] DualVD：一种视觉对话新框架

09. [清华大学] 借助BabelNet构建多语言义原知识库

10. [微软亚研] 沟壑易填：端到端语音翻译中预训练和微调的衔接方法

11. [微软亚研] 时间可以是二维的吗？基于二维时间图的视频内容片段检测

12. [清华大学] 用于少次关系学习的神经网络雪球机制

13. [中科院自动化所] 通过解纠缠模型探测语义和语法的大脑表征机制

14. [中科院自动化所] 多模态基准指导的生成式多模态自动文摘

15. [南京大学] 利用多头注意力机制生成多样性翻译

16. [UCSB 王威廉组] 零样本学习，来扩充知识图谱（视频解读）

17. [上海交大] 基于图像查询的视频检索，代码已开源！

18. [奥卢大学] 基于 NAS 的 GCN 网络设计（视频解读）

19. [中科大] 智能教育系统中的神经认知诊断，从数据中学习交互函数

20. [北京大学] 图卷积中的多阶段自监督学习算法

21. [清华大学] 全新模型，对话生成更流畅、更具个性化（视频解读，附PPT）

22. [华南理工] 面向文本识别的去耦注意力网络

23. [自动化所] 基于对抗视觉特征残差的零样本学习方法

24. [计算所] 引入评估模块，提升机器翻译流畅度和忠实度（已开源）

25. [北大&上交大] 姿态辅助下的多相机协作实现主动目标追踪

26. [快手] 重新审视图像美学评估 & 寻找精彩片段聚焦点

27. [计算所&微信AI] 改进训练目标，提升非自回归模型翻译质量（已开源）

28. [中科院&云从科技]：双视图分类，利用多个弱标签提高分类性能

29. [中山大学] 基于树状结构策略的渐进强化学习

30. [东北大学] 基于联合表示的神经机器翻译（视频解读）

31. [计算所] 引入评估模块，提升机器翻译流畅度和忠实度（视频解读）

32. [清华大学]用于少次关系学习的神经网络雪球机制（视频解读）

点击“阅读原文” 前往 AAAI 2020 专题页

登录查看更多

2

相关内容

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

68+阅读 · 2020年7月1日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

25+阅读 · 2020年5月7日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

22+阅读 · 2020年4月2日

AAAI 2020 | 滴滴自主提出基于注意力机制的异构图神经网络模型

专知会员服务

52+阅读 · 2020年2月26日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

116+阅读 · 2020年2月3日

【基于元学习的推荐系统】5篇相关论文

专知会员服务

85+阅读 · 2020年1月20日

【ICLR2020】理解非自回归机器翻译中的知识蒸馏（Understanding Knowledge Distillation in Non-autoregressive Machine Translation）

【ICLR2020】理解非自回归机器翻译中的知识蒸馏（Understanding Knowledge Distillation in Non-autoregressive Machine Translation）

专知会员服务

10+阅读 · 2019年12月28日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

27+阅读 · 2019年11月15日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

46+阅读 · 2019年11月8日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

71+阅读 · 2019年11月3日

SFFAI 37 报名通知 | 机器翻译专场之同步双向与多语言机器翻译

SFFAI 37 报名通知 | 机器翻译专场之同步双向与多语言机器翻译

人工智能前沿讲习班

3+阅读 · 2019年6月25日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

请收好这份NLP热门词汇解读：预训练、Transformer、无监督机器翻译

请收好这份NLP热门词汇解读：预训练、Transformer、无监督机器翻译

新智元

8+阅读 · 2019年1月31日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

AAAI 2019：一文看全微软亚洲研究院 27 篇重点论文

AAAI 2019：一文看全微软亚洲研究院 27 篇重点论文

新智元

3+阅读 · 2019年1月26日

EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量

EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量

PaperWeekly

6+阅读 · 2018年11月22日

直播 | 自然语言处理中的多任务学习 & 复旦大学NLP实验室介绍

直播 | 自然语言处理中的多任务学习 & 复旦大学NLP实验室介绍

AI科技评论

5+阅读 · 2018年10月22日

微软亚洲研究院论文解读：基于动态词表的对话生成研究（PPT+视频）

微软亚洲研究院论文解读：基于动态词表的对话生成研究（PPT+视频）

PaperWeekly

3+阅读 · 2018年1月3日

特定目标情感分析——神经网络这是要逆天么

特定目标情感分析——神经网络这是要逆天么

计算机研究与发展

14+阅读 · 2017年9月5日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Do NLP Models Know Numbers? Probing Numeracy in Embeddings

Arxiv

5+阅读 · 2019年9月17日

Convolutional Self-Attention Network

Arxiv

6+阅读 · 2019年4月8日

An End-to-End Baseline for Video Captioning

Arxiv

6+阅读 · 2019年4月4日

Fusing Recency into Neural Machine Translation with an Inter-Sentence Gate Model

Arxiv

3+阅读 · 2018年6月12日

Improv Chat: Second Response Generation for Chatbot

Arxiv

4+阅读 · 2018年5月10日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

Discrete Autoencoders for Sequence Models

Arxiv

6+阅读 · 2018年1月29日

Arxiv

7+阅读 · 2018年1月24日

Neural Response Generation with Dynamic Vocabularies

Arxiv

5+阅读 · 2017年11月30日

VIP会员

相关主题

自回归模型

相关VIP内容

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

68+阅读 · 2020年7月1日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

25+阅读 · 2020年5月7日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

22+阅读 · 2020年4月2日

AAAI 2020 | 滴滴自主提出基于注意力机制的异构图神经网络模型

专知会员服务

52+阅读 · 2020年2月26日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

116+阅读 · 2020年2月3日

【基于元学习的推荐系统】5篇相关论文

专知会员服务

85+阅读 · 2020年1月20日

【ICLR2020】理解非自回归机器翻译中的知识蒸馏（Understanding Knowledge Distillation in Non-autoregressive Machine Translation）

【ICLR2020】理解非自回归机器翻译中的知识蒸馏（Understanding Knowledge Distillation in Non-autoregressive Machine Translation）

专知会员服务

10+阅读 · 2019年12月28日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

27+阅读 · 2019年11月15日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

46+阅读 · 2019年11月8日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

71+阅读 · 2019年11月3日

热门VIP内容

相关资讯

SFFAI 37 报名通知 | 机器翻译专场之同步双向与多语言机器翻译

SFFAI 37 报名通知 | 机器翻译专场之同步双向与多语言机器翻译

人工智能前沿讲习班

3+阅读 · 2019年6月25日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

请收好这份NLP热门词汇解读：预训练、Transformer、无监督机器翻译

请收好这份NLP热门词汇解读：预训练、Transformer、无监督机器翻译

新智元

8+阅读 · 2019年1月31日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

AAAI 2019：一文看全微软亚洲研究院 27 篇重点论文

AAAI 2019：一文看全微软亚洲研究院 27 篇重点论文

新智元

3+阅读 · 2019年1月26日

EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量

EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量

PaperWeekly

6+阅读 · 2018年11月22日

直播 | 自然语言处理中的多任务学习 & 复旦大学NLP实验室介绍

直播 | 自然语言处理中的多任务学习 & 复旦大学NLP实验室介绍

AI科技评论

5+阅读 · 2018年10月22日

微软亚洲研究院论文解读：基于动态词表的对话生成研究（PPT+视频）

微软亚洲研究院论文解读：基于动态词表的对话生成研究（PPT+视频）

PaperWeekly

3+阅读 · 2018年1月3日

特定目标情感分析——神经网络这是要逆天么

特定目标情感分析——神经网络这是要逆天么

计算机研究与发展

14+阅读 · 2017年9月5日

相关论文

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Do NLP Models Know Numbers? Probing Numeracy in Embeddings

Arxiv

5+阅读 · 2019年9月17日

Convolutional Self-Attention Network

Arxiv

6+阅读 · 2019年4月8日

An End-to-End Baseline for Video Captioning

Arxiv

6+阅读 · 2019年4月4日

Fusing Recency into Neural Machine Translation with an Inter-Sentence Gate Model

Arxiv

3+阅读 · 2018年6月12日

Improv Chat: Second Response Generation for Chatbot

Arxiv

4+阅读 · 2018年5月10日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

Discrete Autoencoders for Sequence Models

Arxiv

6+阅读 · 2018年1月29日

Arxiv

7+阅读 · 2018年1月24日

Neural Response Generation with Dynamic Vocabularies

Arxiv

5+阅读 · 2017年11月30日

大家都在搜

图与推荐指南针

基于大型语言模型

精益管理体系

【中台】阿里架构总监一次讲透中台架构，13页PPT精华详解，建议收藏

微信扫码咨询专知VIP会员