In this paper, we propose to unify the two aspects of voice synthesis, namely text-to-speech (TTS) and vocoder, into one framework based on a pair of forward and reverse-time linear stochastic differential equations (SDE). The solutions of this SDE pair are two stochastic processes, one of which turns the distribution of mel spectrogram (or wave), that we want to generate, into a simple and tractable distribution. The other is the generation procedure that turns this tractable simple signal into the target mel spectrogram (or wave). The model that generates mel spectrogram is called It$\hat{\text{o}}$TTS, and the model that generates wave is called It$\hat{\text{o}}$Wave. It$\hat{\text{o}}$TTS and It$\hat{\text{o}}$Wave use the Wiener process as a driver to gradually subtract the excess signal from the noise signal to generate realistic corresponding meaningful mel spectrogram and audio respectively, under the conditional inputs of original text or mel spectrogram. The results of the experiment show that the mean opinion scores (MOS) of It$\hat{\text{o}}$TTS and It$\hat{\text{o}}$Wave can exceed the current state-of-the-art methods, and reached 3.925$\pm$0.160 and 4.35$\pm$0.115 respectively. The generated audio samples are available at https://shiziqiang.github.io/ito\_audio/. All authors contribute equally to this work.


翻译:在本文中, 我们提议将语音合成的两个方面, 即文本到语音( TTS) 和vocoder 合并成一个框架, 以一对前方和反向线性线性分解方程为基础。 这个 SDE 配对的解决方案是两个随机过程, 其中之一是将我们想要生成的光谱( 或波) 的分布转换成一个简单和可移动的分布。 另一个是将这个可移动的简单信号转换成目标Mel光谱( 或波) 的生成程序。 生成Mel光谱的模型叫做 It$\ hat\ text{ o_ $TTS, 和生成波的模型叫做 It$\ hat text{ $_ o_ $ wave。 其中之一, 我们想要生成的光谱( 或波 或波 ) 将 Wiener 进程作为驱动器, 逐渐减少这个音量信号的多余信号, 以产生符合现实的对应的线性线性光谱/ 和音频。 在原始文本或Mlexlium $@ sal_ lial_ lio=_ supal_ sal_ sal_ supal_ supal_ sal_ supal_ woceal_ slational_ sal_ sal_ sal_ sal_xxxxxxxal__ sal_ sal_ sal_ sal_ exxxxxxxxxxxxxxxxx

0
下载
关闭预览

相关内容

专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
14+阅读 · 2021年5月21日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
专知会员服务
52+阅读 · 2020年9月7日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Nature 一周论文导读 | 2019 年 5 月 30 日
科研圈
15+阅读 · 2019年6月9日
基于PyTorch/TorchText的自然语言处理库
专知
27+阅读 · 2019年4月22日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年10月6日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Nature 一周论文导读 | 2019 年 5 月 30 日
科研圈
15+阅读 · 2019年6月9日
基于PyTorch/TorchText的自然语言处理库
专知
27+阅读 · 2019年4月22日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员