In this work, a robust and efficient text-to-speech system, named Triple M, is proposed for large-scale online application. The key components of Triple M are: 1) A seq2seq model with multi-guidance attention which obtains stable feature generation and robust long sentence synthesis ability by learning from the guidance attention mechanisms. Multi-guidance attention improves the robustness and naturalness of long sentence synthesis without any in-domain performance loss or online service modification. Compared with the our best result obtained by using single attention mechanism (GMM-based attention), the word error rate of long sentence synthesis decreases by 23.5% when multi-guidance attention mechanism is applied. 2) A efficient multi-band multi-time LPCNet, which reduces the computational complexity of LPCNet through combining multi-band and multi-time strategies (from 2.8 to 1.0 GFLOP). Due to these strategies, the vocoder speed is increased by 2.75x on a single CPU without much MOS degradatiaon (4.57 vs. 4.45).


翻译:在这项工作中,为大规模在线应用提议了一个称为Tripple M的强大而高效的文本到语音系统。Tripple M的关键组成部分是:(1) 具有多指导关注的后继2Seq模式,通过学习指导关注机制,获得稳定的地貌生成和强有力的长句合成能力;多指导关注提高长句合成的稳健性和自然性,而不造成任何内部性能损失或在线服务修改。与我们通过使用单一关注机制(基于GMM的注意)取得的最佳结果相比,长句合成的单词误差率在应用多指导关注机制时下降了23.5%。(2) 高效的多波段多时LPCNet,通过多波段和多时战略相结合(从2.8到1.0GFLLOP),降低LPCNet的计算复杂性。由于这些战略,单CPU没有太多MOS degradatiaon(4.57 vs 4.45),电动电码速度增加了2.75x。

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
注意力机制综述
专知会员服务
83+阅读 · 2021年1月26日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
160+阅读 · 2019年10月12日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
已删除
将门创投
11+阅读 · 2019年8月13日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
10分钟搞懂反向传播| Neural Networks #13
AI研习社
3+阅读 · 2018年1月7日
Arxiv
6+阅读 · 2020年4月14日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
注意力机制综述
专知会员服务
83+阅读 · 2021年1月26日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
160+阅读 · 2019年10月12日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
已删除
将门创投
11+阅读 · 2019年8月13日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
10分钟搞懂反向传播| Neural Networks #13
AI研习社
3+阅读 · 2018年1月7日
Top
微信扫码咨询专知VIP会员