机器翻译，能有多热血？

会员服务 ·

机器翻译，能有多热血？

2021 年 11 月 5 日 微信AI

屏幕上的榜单里，一个“36.1”的BLEU分数很是刺眼。

yj和xfeng看着这个数字，心上像是被铁锤重重地敲了一下。

他们所在的房间，就是2021年WMT英中翻译赛道的比赛现场。于此同时，全球各地还有很多像这样的房间，里面是来自各地的科技团队，紧张地围绕主办方给出的测试集训练相应的模型，并且尽可能让自己的模型得分——BLEU分超越其他团队。

这是一个线上的战场，无声的硝烟中，“36.1”如同一员猛将渐渐显出身影，挡在微信团队面前。而被微信翻译团队寄予厚望的模型，却只达到“35.8”的BLEU分数，在日常生活中看起来微不足道的0.3，在WMT赛场上却成为一道技术天堑。

第二次参加WMT的微信翻译团队，迎来了征途上最强大的对手。故事要从一年前拿下第一个冠军开始说起。

WMT是由国际计算语言学协会(The Association for Computational Linguistics，ACL)举办的国际机器翻译比赛，自2006年创办至今，WMT已经成功举办16届。大赛每年都吸引了众多来自全球的企业、科研机构和高校所组成的顶尖团队。

一年前，微信翻译团队在队长fand的带领下，第一次参加WMT。「参加」本身已经是微信事业群业务团队中少有的动作。“国内做翻译有一点知名度的公司都参加过WMT，有的参加一次或者一个方向就结束了，我们参加两次，让微信翻译的品牌在国际赛事会议上给大家留下一个印象。”

当时还是实习生的yj和xfeng，跟着其他前辈一次来到了WMT。xfeng觉得很刺激。“在较小数据和较小的模型上做翻译，就像在一个60分的基础上提升，可能会很容易到70分、80分。在特别大的数据和特别大的参数量下的翻译场景，相当于基础模型本身就到了90分，找到依然能够奏效的方法很不容易，实现了之后会很有成就感。”xfeng兴奋地比划道。

前辈们在前面冲锋，实习生们在后面打辅助，微信团队第一次参加比赛以微弱的优势险胜，拿到了中英翻译赛道的冠军。

“去年在竞争最激烈的中英方向上已经夺冠，证明自己在这块的实力了，所以我们今年要参加更多赛道。”xfeng说道。于是一年后，转正的实习生们变成了旗手，加上队长和新队员cardl、soulc，微信翻译团队选择了英中、日英、英日和英德受限资源翻译四个新赛道。

在WMT赛程中，参赛者在线提交机器翻译结果后，组委会根据在国际上具有广泛认可度的BLEU自动评估指标，对参赛者提交的机器译文和标准答案进行拟合计算，拟合程度高者排在前面。

所以yj明白，他们尽可能确保处理数据、训练模型、领域迁移和模型集成等每个流程都做得足够好，让每个细节都做到完美，追求极致的态度才能取得好的效果。

打榜开始前的这段时间里，微信翻译团队花了大量的时间过滤数据、改进模型，“前面都是勤勤恳恳，像个老黄牛一样，一点点抠。”

在准备英中翻译比赛的过程中，xfeng负责靠前的流程，初步处理训练数据，yj则接在他的流程之后，输出最终的结果。团队前后用了超过500个模型，每个模型里平均有5、6亿的参数量，伪数据规模约20亿句对。

虽然负责不同的赛道，但是微信翻译团队每周都会开一次汇报会，各自报一下自己达到的数据新高。“随着接近尾声，开会的频率越来越高，一周两次。”负责英德赛道的soulc回忆道，“我们都在不同的地方进行探索，获得一些成功经验之后提取出来，直接在其他方向上进行实验，避免不同人重复工作。这样才能起到团队作战的力量最大化的作用。”

微信翻译参赛团队合照

沿着去年的经验来到了新赛道，xfeng和yj遇到了不少需要重新解决的问题。yj无奈一笑：“去年是最后一两天才有‘一波一折’，今年是真正的一波三折。”

比赛日倒数七天，挫折接连而至。

按照往年的参赛经验，相邻几届的比赛测试集一般较为相似，所以微信翻译团队以2020年的测试集为基础，做了许多调优和测试，一段时间后，团队已经把基于2020年测试集得出的BLEU分推到了超过去年第一名1.5分的水平，在WMT比赛中，超0.5分就已经算是较为明显的差异了。

到了打榜环节，微信参赛团队领到2021年的新测试集，规划好提交策略之后，他们首先提交了一个大家认为潜力比较高的模型，结果却大跌眼镜：分数并没有他们预期的那么高。yj沮丧地说：“辛辛苦苦搞了半年，我们寄予厚望的东西，提交上去结果不咋地。”

微信翻译团队用到的一项自研的模型训练策略：模型做完预测后，将预测结果再输入模型，从而使得模型可以学会抵抗自身的错误。

此时正是WMT比赛的打榜阶段，比赛成绩实时更新，每个比赛队伍只有七次提交机会，犹如田忌赛马。第一轮就摔跟头，微信翻译团队的策略被打乱了。

英德赛道和英日赛道同样遇到强敌。cardl一脸疲惫：“整个比赛期间考验最大的是体力和精神上的，前几天还好，从第四天开始，英日赛道的排名就站不住了，那天晚上开始，第二名每天大概12点提交一次，基本都是在快睡觉的时候，好像跟我们有时差一样，我们睡觉的时候他上班，提交一个好的结果。所以到后面几天我们一般都是凌晨3点钟测试，上午10点交。”

英德赛道的soulc情况类似。“自己提交了一个结果之后，比其他团队高出挺多分数还是挺高兴的，结果第二天他们就放大招了，搞得自己很慌，开始每天回去得很晚。”

各个赛道的比赛都是不进则退，英中赛道的xfeng和yj来不及难过太久，凑在一块开始讨论。“可能并不是我们的模型太弱了，是有些关键点、关键要素没有处理好，导致模型的潜力没有发挥出来。”

分析之后，两人稳住阵脚，开始着手调整模型的组合。“我们从500多个模型中挑最好的组合出来，成为最终提交的结果。当时很慌的是，搜索模型需要花费很多次数去验证，如果我们的筛选指标就已经不对了，遇到稍微大规模一点的数我都没办法做出结果。”

有了第一次提交的教训，他们察觉到最新的测试集与去年的分布规律有所不同，随即调整了模型优化方向。

在大家自信心开始重启时，一个来自对手的36.1分已经在第一名的位置逗留了很长时间。

团队调整解码策略之后，通宵达旦地花了四天时间，借助去年自研的集成模型搜索策略，从500多个模型中找出了最适合的模型组合，提交之后得到了36.4的BLEU分成功登顶，超过第二名约0.3分。

这时比赛已经进入中后期，这样大的分数差距看起来很难跨越了。熬了四天的队员们回去终于睡了一个踏实觉。

早上起床之后，队员们洗漱完打开比赛页面循例查看榜单，却一下子傻眼了：第一名的分数已经赫然变成了36.7，足足超过了微信团队0.3分！

队友们一下子被这反转打懵了。比赛期间，所有参赛队伍都会匿名，当中不排除有来自Facebook等科技公司的资深比赛团队，才刚参加第二次的微信翻译团队本就已经尽了全力，这个不知名的对手，偏偏就像在等着他们费九牛二虎之力亮出底牌，然后轻轻松松就反超了一大截。

英中翻译是微信翻译最大的流量来源，在团队心目中，英中翻译的表现就是微信翻译的门面。为此，在参赛之前，yj和xfeng还向队长立过军令状，必须要把第一拿下。

面对未知又强大的对手，两人在挫败当中生出了些许不甘，他们憋着一股劲，重新投入到现有的技术中。“这个比赛一定要赢，没有底牌，我们就创造底牌。”

没有新的技术的情况下，yj和xfeng和队长fand不断头脑风暴。“我们打通任督二脉，把自己大脑的效率拉满，尝试找到新的杀手锏。”

也许是因为前期已经思考得足够充分，一个灵感跳进了大家的脑海里。

“模型机集成学习最基础的要点，就是多样的模型合起来效果更好，相当于‘三个臭皮匠，顶个诸葛亮’。模型的多样性很重要，但同时单个模型的效果要好才行。去年我们认为相似度是很重要的，越不相似的集成效果越好。今年额外考虑了模型在2019和2020年两个测试集的表现，从三方面综合衡量模型的性能，最后合成一个最终分数，排序后把最高的抽出来，再去挑跟它差异最大的模型，出来的结果几乎就是最好的集成结果。”

举一个通俗的例子，相当于有100个小朋友，每个人都有自己擅长的技能。过去的方法时候对小朋友统一考试，然后选出成绩最高的五位，实际上这样选出来的同学只是学习好，缺少其他技能。现在的新方法是，首先先选一个综合能力最强、技能人无我有的小朋友作为中心，接着从剩下小朋友里选出能力最强、同时和中心差异最大的下一个小朋友，以此类推，不仅考虑了小朋友各自的能力，还考虑了大家的协作能力。

模型Self-BLEU示意图：代表的是模型之间相似度的衡量，颜色越浅，表示模型相似度越低，组合起来集成效果可能越好。

虽然思路上看起来十分可行，但队员们依然十分忐忑。xfeng将手里数百个模型重新刷新后，yj再按照新方法输出结果。提交结果时，已经是凌晨将近四点，yj觉得大脑像是一团浆糊。“我已经尽力了，我能想到的方法、能开发的极限也就到这儿了。说实话，我并没有十足的底气，虽然我喊口号说我一定能赢，但是心里也是没底的。”

出结果的五秒等待时间里，就像过了五年一样漫长。屏幕上出现了一个数字：36.9！瞬间赶超第一名0.2分！

那一刹那，团队成员们情不自禁地紧紧抱在了一起，眼睛甚至湿润了。“我觉得快要哭出来了，整个人像得救了一样。”xfeng说道，“那天晚上本来以为能睡个踏实觉的，我反而没怎么睡好。”

这时候，已经是打榜第七天的凌晨，胜局已定。那个曾经强大的对手，最终成绩停留在36.7。

回忆这段历程，那个凌晨还是让两人历历在目。“WMT就像是一个投名状，证明了我们有能力做这个事情。”yj说。

与此同时，负责英德赛道的soulc和负责英日赛道的cardl也有惊无险地顺利夺得了赛道冠军。

团队希望，以WMT为起点，让微信翻译能够走得更远。“我们既然在比赛上证明了技术实力，就更希望微信翻译的技术能够服务到更多的其他兄弟部门，跟他们一起‘梦幻联动’，拓展新的业务场景。”