We present Translatotron 2, a neural direct speech-to-speech translation model that can be trained end-to-end. Translatotron 2 consists of a speech encoder, a phoneme decoder, a mel-spectrogram synthesizer, and an attention module that connects all the previous three components. Experimental results suggest that Translatotron 2 outperforms the original Translatotron by a large margin in terms of translation quality and predicted speech naturalness, and drastically improves the robustness of the predicted speech by mitigating over-generation, such as babbling or long pause. We also propose a new method for retaining the source speaker's voice in the translated speech. The trained model is restricted to retain the source speaker's voice, but unlike the original Translatotron, it is not able to generate speech in a different speaker's voice, making the model more robust for production deployment, by mitigating potential misuse for creating spoofing audio artifacts. When the new method is used together with a simple concatenation-based data augmentation, the trained Translatotron 2 model is able to retain each speaker's voice for input with speaker turns.


翻译:我们展示 Translatoron 2, 一个神经直接语音对语音的翻译模型, 可以经过训练的终端到终端。 Translatoron 2 由语音编码器、 电话解码器、 元谱合成器和一个连接所有前三个组成部分的注意模块组成。 实验结果表明, Translatoron 2 在翻译质量和预测的语音自然性方面有很大的比原Translatoron高, 并且通过减缓过度生成的音质和预测的语音自然性, 大大提高了预言的稳健性。 我们还提出了一个在翻译的语音中保留源发言人声音的新方法。 这个经过训练的模型仅限于保留源发言人的声音, 但与原来的 Translatoron不同, 它无法以不同的声音生成语音, 使该模型在生产部署上更加稳健, 从而减轻了为创造假音制品而滥用的可能性。 当新方法与简单的基于配置的数据增强力一起使用时, 受过训练的 Translatoron 2 模型能够保留每个发言者的语音输入。

0
下载
关闭预览

相关内容

AAAI 2022:三角分解一致性约束的端到端语音翻译
专知会员服务
8+阅读 · 2022年1月17日
专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
123+阅读 · 2020年9月8日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年5月1日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Top
微信扫码咨询专知VIP会员