Recent works have shown that Deep Recurrent Neural Networks using the LSTM architecture can achieve strong single-channel speech enhancement by estimating time-frequency masks. However, these models do not naturally generalize to multi-channel inputs from varying microphone configurations. In contrast, spatial clustering techniques can achieve such generalization but lack a strong signal model. Our work proposes a combination of the two approaches. By using LSTMs to enhance spatial clustering based time-frequency masks, we achieve both the signal modeling performance of multiple single-channel LSTM-DNN speech enhancers and the signal separation performance and generality of multi-channel spatial clustering. We compare our proposed system to several baselines on the CHiME-3 dataset. We evaluate the quality of the audio from each system using SDR from the BSS\_eval toolkit and PESQ. We evaluate the intelligibility of the output of each system using word error rate from a Kaldi automatic speech recognizer.


翻译:最近的工作表明,使用LSTM结构的深层常务神经网络可以通过估计时频掩码实现强大的单声道增强。然而,这些模型并不自然地向不同麦克风配置的多声道输入进行概括化。相反,空间集群技术可以实现这种概括化,但缺乏强有力的信号模型。我们的工作提出了两种方法的组合。通过使用LSTMS加强基于时间频掩码的空间集群,我们实现了多个单声道LSTM-DNN语音增强器的信号建模性能以及多声道空间组合的信号分离性能和一般性能。我们将我们提议的系统与CHime-3数据集的若干基线进行比较。我们利用BSS-eval工具包和PESQ的特别提款权评估了每个系统声音的质量。我们用Kaldi自动语音识别器的字差错率评估了每个系统输出的不易感知性。

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
《图表示学习》报告,McGill助理教授Hamilton讲授,79页ppt
专知会员服务
46+阅读 · 2020年12月2日
最新《Transformers模型》教程,64页ppt
专知会员服务
304+阅读 · 2020年11月26日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
已删除
将门创投
5+阅读 · 2017年11月20日
Memory-Gated Recurrent Networks
Arxiv
12+阅读 · 2020年12月24日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
5+阅读 · 2017年9月8日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
已删除
将门创投
5+阅读 · 2017年11月20日
Top
微信扫码咨询专知VIP会员