Traditional speech enhancement systems produce speech with compromised quality. Here we propose to use the high quality speech generation capability of neural vocoders for better quality speech enhancement. We term this parametric resynthesis (PR). In previous work, we showed that PR systems generate high quality speech for a single speaker using two neural vocoders, WaveNet and WaveGlow. Both these vocoders are traditionally speaker dependent. Here we first show that when trained on data from enough speakers, these vocoders can generate speech from unseen speakers, both male and female, with similar quality as seen speakers in training. Next using these two vocoders and a new vocoder LPCNet, we evaluate the noise reduction quality of PR on unseen speakers and show that objective signal and overall quality is higher than the state-of-the-art speech enhancement systems Wave-U-Net, Wavenet-denoise, and SEGAN. Moreover, in subjective quality, multiple-speaker PR out-performs the oracle Wiener mask.


翻译:传统语音增强系统产生质量受损的语音。 我们在这里建议使用神经电动器的高品质语音生成能力来提高语言质量。 我们用这种参数合成(PR) 。 在以往的工作中, 我们用两种神经电动器、 WaveNet 和 WaveGlow 来显示, 传统语音增强系统为单一发言者提供高质量的语音。 这两种电动器传统上都依赖语音。 我们在这里首先显示, 在接受足够演讲者提供的数据培训后, 这些电动器可以产生与培训时的演讲者质量相似的隐性演讲者( 不论男女) 的语音生成能力。 下一步, 我们使用这两种电动器和一个新的电动器 LPCNet, 我们评估隐形发言者的语音降低质量, 并显示, 客观信号和总体质量高于最先进的语音增强系统Wave-U- Net、 Wavenet-denoise和 SEGAN。 此外, 在主观质量上, 多发声器的PR 超越了Wiener 面具。

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
137+阅读 · 2020年7月6日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Teacher-Student Training for Robust Tacotron-based TTS
Phase-aware Speech Enhancement with Deep Complex U-Net
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关资讯
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员