AI同传变革性进展：搜狗同传3.0首创语境引擎，让机器具有理解、推理能力

2019 年 12 月 27 日 CSDN

【导读】近日，在极客公园大会上，搜狗同传最新版本 3.0 首次正式亮相。自 2016 年推出业内首个商用机器同传产品以来，经过数次迭代，搜狗同传 3.0 同样以业内首个“多模态”同传产品的身份出现在大家面前。相较之前的版本和市面上的竞品，搜狗同传 3.0 从技术层面进行了哪些变革性的改进？在媒体沟通会上，搜狗 AI 交互技术部总经理陈伟向我们解答了这些疑问。

整理 | 夕颜

出品 | AI科技大本营（ID:rgznai100）

业内首创语境引擎，会听、会看、会思考

与以往的机器同传不同，搜狗同传 3.0不仅可以利用语音信息，还可以通过OCR 捕捉演讲人正在演讲的 PPT内容，并实时分析 PPT 核心关键词，增强了视觉的能力。同时，在捕捉到核心关键词之后利用搜狗的知识图谱技术进行专业领域相关的词语拓展，从而实现语音识别和翻译加强。

在这样一套系统下，新的同传系统可以更像一个专家和内行一样的解读和翻译大会，提高同传的质量和效率。

陈伟将搜狗同传 3.0 总结为三个能力升级：

感知能力：单模态→多模态感知能力升级，结合语音、视觉等信息进行理解；
认知能力：可以理解、推理，在语境引擎帮助下理解语境信息，提取演讲核心与相关专属内容，并通过知识图谱对内容进行拓展，形成演讲者相关语境信息；
实时定制化：实时捕捉分析PPT核心词汇，为每个演讲生成定制引擎，并基于语音引擎生成的个性化知识做实时增强。

具体来说，搜狗同传 3.0 首创语境引擎，让翻译系统会听、会看、会思考。

陈伟解释道，机器同传距离人工同传的差距，主要在于对该场会议专业领域词汇的语音识别和翻译能力。多模态同传模拟人工耳、眼、脑全方位配合的多感知的工作方式，让机器同传效果更加接近人工同传。

会听、会看相对好理解，指的是通过语音识别、OCR、NLP等技术是识别讲述内容，实时捕捉并分析 PPT 核心词汇，而“会思考”则指基于知识图谱等技术，广泛拓展专业领域词汇，在这个过程中，搜狗同传会为每场会议生成定制模型，大幅提升了对专业领域词汇的识别和翻译准确度。

利用多模态信息，搜狗同传3.0针对演讲PPT内容，识别准确率提升 21.7%，翻译正确率提升 40.3%。

陈伟表示，在同传实际操作过程中，很多时候是无法提前获取演讲嘉宾的 PPT 的，因此在嘉宾演讲时实时获取 PPT 内容的能力显得非常重要。但实现这一点其实并不难，搜狗同传 3.0 可以通过两种方式实时获取 PPT 内容，一种是通过截屏获得与原图分辨率和清晰度相差无几的图片，这也是最理想的方式；另一种是加一个普通的摄像头，对准演讲的会议室拍摄即可。当然，摄像的清晰度是有一定要求的，不能太模糊，否则 OCR 的准确率会急剧下降。从实际 PPT 识别情况来看，OCR 准确率可以达到 98% 以上。

获取多模态信息相对容易，但如何实时解析多模态信息就不是件简单的事了。因为多数情况下演讲之前很难留出足够的时间做定制化，因此尽管搜狗同传的通用能力和个性化能力在不断提升，但是机器识别与翻译始终与人类有着 20%-30% 的差距。鉴于此，搜狗同传开始思考如何让机器定制语境。

“因为演讲过程中每个人都有一套自己的话语体系，如果可以自动化定制语境就可以提高翻译质量和效率。因此，搜狗同传 3.0 构建了语境引擎，能够实时学习 PPT 内容，通过 OCR，从之前的智能获取语音信息变成语音信息+OCR 获取的 PPT 信息结合起来，在演讲嘉宾讲话过程中预测语境，在推理过程中利用搜狗百科等知识，并围绕关键词做周边拓展，变成个性化语境知识，从而提升同传效果。”陈伟解释道。

因为背靠搜狗搜索引擎，搜狗同传在构建自己的知识图谱方面天然地具有优势，搜狗基于大量的数据积累生成自己高精度的知识图谱，对于同传而言就是一个天然的壁垒。

从1.0到3.0，搜狗同传的技术迭代之路

从 1.0 到 3.0，搜狗同传经过多次技术迭代，才拥有了理解和推理的能力。一路以来，搜狗同传创造了很多业内“首个”。比如 2016 年 11 月推出的搜狗同传 1.0 通用语音同传是首个商用机器同传产品，实现了语音同传的功能；2018 年，搜狗同传 2.0 集成TTS，首次实现语音到语音同传，并可根据用户语料实时定制，同时它还用上了首个英译中同传引擎；到 3.0，搜狗同传已经是一款业内首创的多模态+自主学习的同传产品，能听、会看，能理解、会推理是它的特点。

在大会同传时，专业术语的识别和翻译是难点和效果瓶颈。以往，同传对所有会议大多都采用通用模型，但会议通常涉及很多专业领域(如医疗、物理、生物、经济等)，这些专业术语的识别和翻译往往是同传难点和效果瓶颈。另一方面，虽然搜狗同传早已具备个性化定制的能力，但实际在大会中发现无法提前获取到演讲人的 PPT 和相关材料。针对这个问题，搜狗 3.0 增加了实时捕捉 PPT 内容的功能。

相比之前的版本，搜狗同传3.0 有这样三个特点：一是更自然，以往同传是单纯的语音识别，而搜狗同传 3.0 会模拟人工同传的工作方式，增加视觉和大脑扩散知识点的功能，形成一套全方位的感知系统；二是更专业，之前同传的模型是通用的，但搜狗同传 3.0 形成了实时专属的定制加强能力，能够实时捕捉 PPT 内容，补充演讲专业领域知识，并针对每一个演讲进行模型定制，提升同传效果；三是更智能，以往模型训练需要一个被动学习的过程，而现在搜狗同传 3.0 可以自动学习 PPT 内容，自动捕捉海量词汇，确保同传质量。

上图是搜狗同传 3.0 的技术框图，可以看到，它主要分为语音识别、机器翻译和语音合成三个部分。翻译结果出来之后用户可以看到译文上屏，也可以进行语音收听。

这是搜狗同传语音识别演进模块，搜狗 1.0 时，输入仅是语音，2.0 开始做语音+个性化，以及说话人的语境背景输入；3.0 加入了知识图谱，把语音、视觉等信息作为语音识别的输入。现在，业内技术普遍介于1.0 和 2.0 之间，而搜狗依靠图谱方式，已经率先进入3.0 时代。

搜狗 3.0 在语音识别与机器翻译之间有一个语音识别和翻译协同模块，因为识别和翻译是两个独立的步骤，但两个系统之间如何进行融合决定了系统的好坏。1.0 时代，语音识别和翻译协同模块主要针对输出的标点断句，但是会遇到一些棘手的情况，比如遇到说话人语气词和语态停顿较多的情况，翻译质量会大打折扣。

2.0 时代，搜狗同传会首先对文本进行规则化，让文本变得流利，丢弃一些语义词和停顿词等，但会遇到延时很大的问题。

在 3.0 时代，搜狗同传加入了语义单元，识别判断一句话为独立的一个单元，系统可以在讲话者说话的同时可以立即上屏，降低同传系统的延迟。

那么，低延迟是如何实现的呢？原来是他们做了一个基于上下流的解码。

“其实翻译就是文本到文本的信息转换，但是同传产品为了降低延迟，话说到一半的时候就要翻译，我们做了一个 2.0 中是没有用到的信息模块，可以实时检测一段话中应该从哪一个句子开始断句，这样就可以大大降低了延迟。”搜狗赵超解释道。

一个小小的改进，其实可以很大程度上提高用户的体验。

这是搜狗机器翻译模块的演进过程。1.0 时代，搜狗同传采用 RNN 模型结构，这种模型结构能记住文本的历史信息，但同时存在一些问题，固有的顺序属性不仅阻碍了训练样本间的并行化，而且存在梯度消失或者爆炸问题，对历史记忆能力欠佳2.0 时代，机器翻译模型升级成为Transformer，这种模型自注意力机制，很好的解决了远程依赖性。

3.0 时代，翻译系统再次升级，采用基于翻译历史的流式解码和搜狗百科知识图谱的方法，这样不仅翻译得比较流畅，同传系统延迟也降低了，之前的延迟为 7 秒左右，而现在为 5 秒左右，拉近了与人工同传的距离。

机器翻译行业现状：机器翻译与人工之间的差距在拉近

机器翻译的历史可能比大多数人想象中都要久远，1954 年初，乔治城大学的实验的一台电脑成功将四十多条俄文句子自动翻译成英文，这一事件成为机器翻译史中的一个里程碑，标志着现代机器翻译的开端。60 多年过去了，机器翻译产品已经走进每个人的日常生活，在大型会议等场景下被广泛采用。

虽然翻译效果仍有待提高，但机器翻译已经成为提高翻译效率不可或缺的工具，并催生了一大批从事 AI 翻译研究的企业，国内有搜狗、腾讯、科大讯飞等，国外有谷歌、微软等。

翻译领域有些工作是有重复性的，包括同传领域，机器在某些方面会优于人工，比如知识面、领域知识的拓展性上，机器比真人的知识面更广阔，并能够快速查询背后海量的知识体系，这比真人在某些领域的翻译上的准确率更高。

陈伟表示，在支持了上千场会议之后，他们发现从成本上来看，机器翻译的成本一定是低于人工的，且边际成本会随着使用量增加越来越低。与人相比，机器翻译成本更低，需要支持的设备也更少，一台笔记本，一条视频线、一条音频线，连上就可以工作。

离线翻译仍是刚需

虽然全球范围内网络部署情况在日益好转，但是在偏远地区和一些特殊地带存在联网问题，因此，离线翻译至少目前来说还是一个相对刚性的需求。

一般来说，离线翻译的实现途径有两种，一是私有化部署，在笔记本里运行；二是在手机端部署。目前，搜狗同传3.0 已经具备了私有化部署的能力，但是在手机上运行同传，效果会大打折扣。

2018 年，搜狗发布了翻译机，首次真正把语音识别+机器翻译+语音合成完全离线化，在运算特别受限的设备上可以跑到和电脑上差不多的效果。当时，这在行业里引起很大轰动，成为市面上很多翻译机离线产品的对标产品。这背后的技术与同传上用到的技术非常类似，但是有一个问题。“云端的能力放到本地很小的一个运算设备上，存在很多工程上和算法上的问题。工程能力如何在运算能力受限的情况下跑得更好，这是一种运算加速的问题；第二是如何从云端的大模型变成小模型，这是一个知识提纯的工作，两部分工作结合起来，才能驱动离线翻译能跑起来。”陈伟说道。

解决常识翻译还需要更完善的常识知识库

尽管已经存在了将近一个世纪，但常识翻译如今仍然是一个难题。通过构建常识知识库是解决这个难题的途径之一。

当真正面向工业级的信息系统时，陈伟认为不应该用模型翻译，一个工业级的翻译机器系统里面一定要有一定要有知识库。搜狗同传经过两三年积累下来的常识知识库是最大的一笔财富，在不断的面向更多的领域做同传时搜狗积累了不同领域的术语库，目前已形成了 600 多万对专业术语中英对照表。

机翻和同传面临的难题

现在，基于海量数据训练机器翻译系统，使得机器在感知能力方面越来越强。但是，在翻译上，机器与人还是存在着明显的差距。

机器现在可以做到“信”，“达”也大致可以做到，但是“雅”还是人做得更好。同时，AI 同传还面临着直译的问题，比如是否能 get 到一个笑话并恰当地翻译出来，以及理解、翻译谚语等。“可以看到，机器与人翻译最大的差距还是在语言上，所以搜狗要把重心回归到语言这件事上，”陈伟说道。

他还认为，如果要进一步优化机器翻译的准确率和效果，多模态一定是未来要抓住的一个抓手。如何更好地把从大量数据中抽取出来的知识用在同传中，这也是搜狗的核心任务，如何把自然交互+知识计算做好，计算出更多的知识给同传所用，是搜狗一直努力的方向。

多模态是人机交互的未来

搜狗团队自 2019 年 9 月份做了架构调整升级成 AI 交互事业部后，部门的核心是打造搜狗面向人工智能战略，即自然交互+机器计算，围绕如何如何更好地把人和机器结合起来，交互走在前台，机器计算走在后台，共同构建起人机交互的核心路径。

陈伟提到，有人说语音交互可能会成为下一代交互技术最主要的模态，因为语音是人与人交流最自然的方式，但是他认为多模态的方式才是更自然的模式。因为人与人交流是视觉和声音结合起来的过程，从这一点上来说多模态是交互的未来。

那么，如何让人机交互更自然？搜狗提出几个主张，第一是多模态，交互一定不是单一模态的方式；第二未来会有虚拟人的存在，即合成主播。

他把人机交互未来的工作分成三部分，第一是多模态的感知，比如在语音层面的语音识别、个性化声纹和语音分析等，图像层面包括两部分，比如 OCR、扫描图片、手写和唇语，以及人脸检测、人脸识别等。接下来还有一些像文本的输入。第二是语义理解，打造对话语音和机器翻译能力。第三是让机器如何表达，搜狗的主张是虚拟的表达方式，输入文本就能得到能讲话的形象。“我们相信在未来，多模态虚拟交互人会变成搜狗的分身，在这个体系下目前一个最重要的解决方案叫做'搜狗分身方案'，就是一个多模态的解决方案。”

未来，搜狗同传产品一定会走向 VPA（个人虚拟助手），成为一个软件形态的助理，可能放在硬件上、搜狗输入法或搜狗搜索上等。搜狗 VPA 是一个任务导向的形态，以对话为主。同传场景下，搜狗同传就是一种具备了同传能力的VPA，可以与人进行交互。

而说到虚拟人，他认为未来虚拟人呈现的形态不是一条声波在讲话，而是会被赋予一个高度定制化、个性化的虚拟形象，理想中的机器一定是一个虚拟人，可以与人自由对话。

多模态技术研究热点和未来发展

意识到多模态技术重要性的不仅是搜狗，很多公司都意识到这一点，并将研究成果落地到各种应用中，比如腾讯、优酷等视频网站平台，快手等短视频平台都将多模态技术应用于内容理解上，在获取用户和加强与用户的互动交流上起到了重要作用。

未来，多模态技术会向哪些方向发展呢？会出现哪些技术研究热点呢？

在陈伟看来，现在关于多模态的研究课题还是要从产品和实际需求倒推功能。比如一个静态的图像和一个有时间标签的语音信号如何融合？这就涉及到异构数据融合的问题。再比如，一张图片配上 10 秒钟的语音描述，唇语和语言这两个数据如何实现完全同步融合，这又涉及到一个新的问题。

另一个研究热点是多模态数据的问题，多模态数据获取是有难度的。

第三，多模态表达，比如讲一句话，在语义上如何进行对齐，提取同一需求的多模态特征，如何更好地跨越语义的鸿沟，异构数据如何融合，都是多模态技术会遇到的问题。搜狗现在要做多模态的人机交互，需要用到哪些模态信息，模态信息上如何针对已有的信息做融合，都是他们要做的工作。任务不一样，解决办法也会有区别。

采访嘉宾：

陈伟，搜狗AI交互技术部总经理，主要负责搜狗多模态人机交互技术的研发和产品化工作，研究方向涵盖语音、图像、自然语言等多模态领域，带领团队实现了行业中最前沿的人机交互技术，并重点推动了搜狗人机交互核心能力在输入法、AI录音笔、AI翻译机的全面应用。同时还主导推出了搜狗分身、搜狗同传、搜狗变声等前沿性的AI创新产品，不断带领团队探索人机交互产品和技术的未来。

登录查看更多

相关内容

搜狗

关注 1

搜狗凭借对前瞻性技术趋势的把握和敏锐的市场嗅觉，已经成为中国互联网的创新典范，也是最具发展潜力的公司之一。搜狗的产品围绕互联网的最基础应用，其中输入法、浏览器、搜索三大产品均名列前茅。2010年8月9日，在引入阿里巴巴集团和云峰基金等战略投资者之后，搜狗从搜狐分拆，成为独立运营的公司，王小川出任搜狗首席执行官。

2020年中国《知识图谱》行业研究报告，45页ppt

专知会员服务

240+阅读 · 2020年4月18日

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

专知会员服务

112+阅读 · 2020年1月7日