This paper introduces Parallel Tacotron 2, a non-autoregressive neural text-to-speech model with a fully differentiable duration model which does not require supervised duration signals. The duration model is based on a novel attention mechanism and an iterative reconstruction loss based on Soft Dynamic Time Warping, this model can learn token-frame alignments as well as token durations automatically. Experimental results show that Parallel Tacotron 2 outperforms baselines in subjective naturalness in several diverse multi speaker evaluations. Its duration control capability is also demonstrated.


翻译:本文件介绍平行塔可罗2号,这是一个非航空神经文本到语音模型,具有完全不同的持续时间模型,不需要有监督的持续时间信号。持续时间模型基于一个新的关注机制和基于软动态时间扭曲的迭代重建损失,该模型可以自动学习代号-框架调整和象征性持续时间。实验结果表明,平行塔可罗2号在多个多发言者评价中主观自然性优于基线。其持续时间控制能力也得到了展示。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
专知会员服务
30+阅读 · 2021年4月5日
【CVPR2021】自监督几何感知
专知会员服务
46+阅读 · 2021年3月6日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
74+阅读 · 2020年8月2日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
7+阅读 · 2018年9月27日
VIP会员
Top
微信扫码咨询专知VIP会员