翻译|同声传译被攻陷！谷歌发布Translatotron直接语音翻译系统

会员服务 ·

翻译|同声传译被攻陷！谷歌发布Translatotron直接语音翻译系统

2019 年 5 月 17 日 机器人大讲堂

让说不同语言的人更容易地、直接地相互交流，这是语音到语音的翻译系统(Speech-to-speech translation)的目的，这样的系统在过去几十年里取得了不错的进展。

今天，谷歌发布Translatotron语音翻译系统，这是第一个可以直接将一个人的声音从一种语言转换成另一种语言，同时保持说话人的声音和节奏的翻译模型。

传统上，语音翻译系统通常有3个独立的部分：自动语音识别将源语音转录为文本，机器翻译将转录的文本翻译成目标语言，最后，文本到语音合成(TTS)系统将翻译文本转换成目标语言的语音。

许多商业语音到语音翻译的产品都采用这样的系统，包括Google Translate。但是，这类系统依赖于中间文本，准确率不高，而且效率较低。

谷歌的新工具Translatotron舍弃了将语音翻译为文本再返回语音的步骤，而是采用端到端的技术，直接将说话者的声音翻译成另一种语言。这使它能够快速地翻译，但更重要的是，能够更容易反映说话人的语调和节奏。

在论文《基于序列到序列模型的直接语音到语音翻译》(Direct speech-to-speech translation with a sequence-to-sequence model）中，谷歌的研究人员提出一种基于单个注意力序列到序列模型的直接语音到语音翻译的新实验系统，该系统不依赖于中间文本表示。

这个系统被称为Translatotron，避免了将任务划分为独立的阶段，比级联系统更有优势，包括推理速度快、自然地避免了识别和翻译之间的复合错误，能够在翻译后保留原说话者的声音，以及能够更好地处理不需要翻译的单词(如名称和专有名词)。

Translatotron：不依赖中间文本，直接翻译语音

Translatotron：不依赖中间文本，直接翻译语音

语音翻译端到端模型的出现始于2016年，当时研究人员证明了使用单个序列到序列模型进行语音到文本翻译的可行性。2017年，我们证明了这种端到端模型可以超越级联模型(cascade models)。

最近有许多工作进一步改进了端到端语音到文本翻译模型的方法，包括同样来自谷歌的利用弱监督数据的工作(https://arxiv.org/abs/1811.02050)。

Translatotron更进一步，证明了单个序列到序列模型可以直接将一种语言的语音翻译成另一种语言的语音，而不需要像级联系统那样依赖于任何一种语言的中间文本表示。

Translatotron基于一个sequence-to-sequence网络，它将源声谱图(spectrograms)作为输入，生成目标语言翻译内容的声谱图。

输入和生成的声谱图

此外，Translatotron还使用了另外两个单独训练的组件：一个神经声音编码器(neural vocoder)，可以将输出声谱图转换为时域波形；另外，还可以选择使用一个speaker encoder，用于在合成翻译语音时保持源speaker的语音特征。

在训练过程中，序列到序列模型使用一个多任务目标预测源和目标转录文本，同时生成目标声谱图。然而，推理过程中不需要使用转录文本或其他中间文本表示。

Translatotron的模型结构

性能

谷歌通过测量BLEU分数来验证Translatotron的翻译质量。该分数是通过语音识别系统转录的文本计算的。虽然结果落后于传统的级联系统，但已经证明了端到端直接语音到语音转换的可行性。

对比Translatotron到基线级联方法的直接语音到语音翻译输出，在这种情况下，两个系统都提供合适的翻译并使用相同的规范语音很自然的说话。

保持声音特征

通过结合扬声器编码器网络，Translatotron还能够在翻译的语音中，保留原始说话者的声音特征，这使得翻译的语音听起来更自然，不那么刺耳。

此功能利用了之前针对TTS的演讲者验证和演讲者调整的Google研究。扬声器编码器在演讲者验证任务上进行预训练，学习从简短的示例话语对扬声器特性进行编码。在该编码上调节频谱图解码器，即使内容是在不同的语言中，也可以合成具有类似扬声器特性的语音。

谷歌提供了诸多使用示例，如下面的例子，Translatotron将西班牙语对话转换为英语，下面的音频分别是西班牙语输入、真人参考翻译，以及Translatotron的翻译。

更多示例：

https://google-research.github.io/lingvo-lab/translatotron/#conversational

在这个例子中，Translatotron提供比基线级联模型更准确的平移，同时能够保留原始说话者的声音特征。保留原始说话者声音的Translatotron输出训练的数据，少于使用规范声音的数据，因此它们产生的翻译略有不同。

结论

谷歌声称，Translatotron是第一个可以直接将一种语言的语音，翻译成另一种语言的语音的端到端模型。它还能够在翻译的语音中保留源说话者的声音。谷歌希望这项工作可以作为未来端到端语音转语音翻译系统研究的起点。

来源：Google AI

END

加入社群

机器人大讲堂Rob社群开始招募啦！如果您正在从事或想要从事机器人行业、想要学习这一方向，都欢迎您加入我们共同探讨机器人前沿科技。

另外，腿足机器人、医疗机器人、工业机器人专业讨论群正在招募中，欢迎各位专业领域的小伙伴加入。

在机器人大讲堂公众号对话框回复“交流群”获取入群方式！

招募作者

机器人大讲堂正在招募兼职内容创作者和专栏作家

请将简历和原创作品投至邮箱：LDjqrdjt@163.com

我们对职业、所在地等没有要求，欢迎有兴趣有能力的朋友加入！

看累了吗？戳一下“在看”支持我们吧！

登录查看更多

相关内容

语音翻译

关注 385

通过计算机进行不同语言之间的直接语音翻译，辅助不同语言背景的人们进行沟通已经成为世界各国研究的重点。和一般的文本翻译不同，语音翻译需要把语音识别、机器翻译和语音合成三大技术进行集成，具有很大的挑战性。

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

专知会员服务

16+阅读 · 2020年4月15日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

23+阅读 · 2020年4月7日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

16+阅读 · 2020年3月23日

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

35+阅读 · 2020年3月3日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

18+阅读 · 2020年2月26日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

40+阅读 · 2020年2月26日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

50+阅读 · 2020年2月16日

阿里巴巴达摩院发布「2020十大科技趋势」

专知会员服务

105+阅读 · 2020年1月2日

【ICLR2020】理解非自回归机器翻译中的知识蒸馏（Understanding Knowledge Distillation in Non-autoregressive Machine Translation）

专知会员服务

10+阅读 · 2019年12月28日

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

专知会员服务

34+阅读 · 2019年12月4日

已删除

将门创投

4+阅读 · 2019年10月11日

浙大学霸本科生顶会研究！只需20分钟音频，AI就能逼真模仿你的声音

量子位

8+阅读 · 2019年6月3日

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

量子位

6+阅读 · 2019年5月29日

谷歌用新的语音数据扩增技术大幅提升语音识别准确率

雷锋网

7+阅读 · 2019年4月24日

谷歌发布问答系统新语料，同时发布相关挑战赛

AI研习社

4+阅读 · 2019年2月10日

已删除

将门创投

7+阅读 · 2018年10月12日

语音合成的里程碑：百度推出首个完全端到端的TTS模型

论智

7+阅读 · 2018年7月25日

学界 | 语音合成领域的首个完全端到端模型，百度提出并行音频波形生成模型ClariNet

机器之心

4+阅读 · 2018年7月24日

业界 | 带有韵律的合成语音：谷歌展示基于Tacotron的新型TTS方法

机器之心

3+阅读 · 2018年3月30日

Mozilla发布开源语音数据库和语音识别模型

Python程序员

3+阅读 · 2017年12月1日

Teacher-Student Training for Robust Tacotron-based TTS

Arxiv

5+阅读 · 2019年11月7日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

FastSpeech: Fast, Robust and Controllable Text to Speech

Arxiv

3+阅读 · 2019年5月22日

Challenges in Building Intelligent Open-domain Dialog Systems

Arxiv

20+阅读 · 2019年5月13日

End-to-end Speech Recognition with Word-based RNN Language Models

Arxiv

3+阅读 · 2018年8月8日

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese

Arxiv

5+阅读 · 2018年6月4日

Japanese Predicate Conjugation for Neural Machine Translation

Arxiv

3+阅读 · 2018年5月25日

Neural Machine Translation Decoding with Terminology Constraints

Arxiv

5+阅读 · 2018年5月9日

Audio Adversarial Examples: Targeted Attacks on Speech-to-Text

Arxiv

18+阅读 · 2018年1月5日

VIP会员