Facebook AI在WMT 2019机器翻译比赛中领先

2019 年 8 月 2 日 专知

【导读】Facebook上的用户来自多个国家,使用着上百种不同的语言在平台上发布信息。因此,构建灵活的机器翻译系统一直是Facebook的研究重点之一。Facebook AI在WMT 2019机器翻译比赛的四项任务中取得了第一。



Facebook AI在WMT 2019机器翻译比赛的四项任务中取得了第一。这四项任务包含从英语翻译到德语的任务,这是比赛中最具竞争力的任务,参赛作品来自各种顶尖团队。在这项任务中,Facebook AI的模型被WMT组织者宣布为超人,这意味着相对于人类专家的翻译结果,人类评价者更喜欢Facebook AI模型的翻译结果。


Facebook的模型使用大规模采样反向翻译、噪声通道建模和数据清理技术,以实现从英语到德语,德语到英语,从英语到俄语,从俄语到英语的最高性能翻译。这些模型,和Facebook在跨语言预训练、其他模态自监督学习上的研究一起,将使得Facebook能够打破语言障碍,建立更好的内容理解系统,以保障人们的安全。


反向、前向、更加流畅


机器翻译通常通过使用单个模型来为给定的单词序列生成翻译,例如将德语句子翻译成英语。噪声通道建模通过使用3个模型获得了更为准确的翻译:


首先,正向模型翻译句子(例如从德语到英语),生成一组翻译候选或假设。然后反向模型将这些英语假设翻译回德语,允许系统评价每个英语翻译与原始德语句子的对比情况。最后,一个语言模型会判断英语翻译的流利程度。该语言模型经过在上亿词上的训练,获得了英语句子的语感(英语句子应该是什么样的)。


一旦后向和语言模型对前向模型产生的所有英语翻译进行评分,系统然后根据所有模型选择具有最高组合分数的假设作为实际翻译。我们使用fairseq(我们的开放式序列到序列建模工具包)在128个NVIDIA Volta GPU上训练所有这些模型。


清理采集数据集并微调


今年,Facebook在训练数据上也做了重大的改变,包括用来反向翻译和噪声通道建模的数据。WMT新闻翻译任务提供了大量的从互联网上抓取的数据,这些数据天然就包含很多噪声。

为了缓解这个问题,Facebook我们采用了一系列数据清理技术,例如删除翻译比其相应翻译长得多的实例。 Facebook还使用语言识别(或langid)过滤来仅保留那些两边语言都正确的句子对。


更多细节可以参考;

  • https://ai.facebook.com/blog/facebook-leads-wmt-translation-competition/


-END-

专 · 知

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询

请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成!560+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

登录查看更多
0

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Facebook发布AI换脸检测竞赛
专知
9+阅读 · 2019年9月7日
Facebook :AI 年度总结来啦
人工智能学家
4+阅读 · 2019年1月21日
AI Challenger 2018 机器翻译参赛总结
PaperWeekly
5+阅读 · 2019年1月7日
AI Challenger 2018 机器翻译冠军参赛总结
AINLP
6+阅读 · 2019年1月4日
用于神经机器翻译的全并行文本生成
全球人工智能
7+阅读 · 2017年11月13日
Arxiv
21+阅读 · 2018年8月30日
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
8+阅读 · 2018年4月12日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
相关资讯
Facebook发布AI换脸检测竞赛
专知
9+阅读 · 2019年9月7日
Facebook :AI 年度总结来啦
人工智能学家
4+阅读 · 2019年1月21日
AI Challenger 2018 机器翻译参赛总结
PaperWeekly
5+阅读 · 2019年1月7日
AI Challenger 2018 机器翻译冠军参赛总结
AINLP
6+阅读 · 2019年1月4日
用于神经机器翻译的全并行文本生成
全球人工智能
7+阅读 · 2017年11月13日
相关论文
Arxiv
21+阅读 · 2018年8月30日
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
8+阅读 · 2018年4月12日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员