【导读】Facebook上的用户来自多个国家,使用着上百种不同的语言在平台上发布信息。因此,构建灵活的机器翻译系统一直是Facebook的研究重点之一。Facebook AI在WMT 2019机器翻译比赛的四项任务中取得了第一。
Facebook AI在WMT 2019机器翻译比赛的四项任务中取得了第一。这四项任务包含从英语翻译到德语的任务,这是比赛中最具竞争力的任务,参赛作品来自各种顶尖团队。在这项任务中,Facebook AI的模型被WMT组织者宣布为超人,这意味着相对于人类专家的翻译结果,人类评价者更喜欢Facebook AI模型的翻译结果。
Facebook的模型使用大规模采样反向翻译、噪声通道建模和数据清理技术,以实现从英语到德语,德语到英语,从英语到俄语,从俄语到英语的最高性能翻译。这些模型,和Facebook在跨语言预训练、其他模态自监督学习上的研究一起,将使得Facebook能够打破语言障碍,建立更好的内容理解系统,以保障人们的安全。
反向、前向、更加流畅
机器翻译通常通过使用单个模型来为给定的单词序列生成翻译,例如将德语句子翻译成英语。噪声通道建模通过使用3个模型获得了更为准确的翻译:
首先,正向模型翻译句子(例如从德语到英语),生成一组翻译候选或假设。然后反向模型将这些英语假设翻译回德语,允许系统评价每个英语翻译与原始德语句子的对比情况。最后,一个语言模型会判断英语翻译的流利程度。该语言模型经过在上亿词上的训练,获得了英语句子的语感(英语句子应该是什么样的)。
一旦后向和语言模型对前向模型产生的所有英语翻译进行评分,系统然后根据所有模型选择具有最高组合分数的假设作为实际翻译。我们使用fairseq(我们的开放式序列到序列建模工具包)在128个NVIDIA Volta GPU上训练所有这些模型。
清理采集数据集并微调
今年,Facebook在训练数据上也做了重大的改变,包括用来反向翻译和噪声通道建模的数据。WMT新闻翻译任务提供了大量的从互联网上抓取的数据,这些数据天然就包含很多噪声。
为了缓解这个问题,Facebook我们采用了一系列数据清理技术,例如删除翻译比其相应翻译长得多的实例。 Facebook还使用语言识别(或langid)过滤来仅保留那些两边语言都正确的句子对。
更多细节可以参考;
https://ai.facebook.com/blog/facebook-leads-wmt-translation-competition/
-END-
专 · 知
专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询!
请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~
专知《深度学习:算法到实战》课程全部完成!560+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!
点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程