搜狗研究员：详解基于深度学习的语音分离

2017 年 10 月 15 日 数据派THU

来源：AI 研习社

本文长度为3000字，建议阅读6分钟

本文为你介绍语音分离方面主要的研究课题和相关方法。

[导读] 基于深度学习的有监督语音分离在学术界和工业界越来越受到关注，也是深度学习在语音领域的应用中重要的一部分。作为雷锋网 AI 研习社近期组织的一系列语音领域应用的分享会之一，本次我们请到了来自搜狗的研究员文仕学对语音分离方面主要的研究课题和相关方法做一些介绍。

观看完整回顾大概需要 31 分钟

文仕学，过去学物理，后来学 EE，现在从事 Deep Learning 工作，未来投身 AI 和 CM 事业。他的研究兴趣在于语音信号处理和深度学习。在加入搜狗之前，曾在中国科学技术大学学习，在该领域的期刊和会议上发表了若干篇论文。现在在搜狗语音团队任副研究员。

将本次分享的内容整理如下：

分享主题：基于深度学习的语音分离

文仕学首先介绍了 “语音分离”（Speech Separation）是怎么样的一种任务。这个问题来自于 “鸡尾酒会问题”，采集的音频信号中除了主说话人之外，还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。

根据干扰的不同，语音分离任务可以分为三类：

当干扰为噪声信号时，可以称为 “语音增强”（Speech Enhancement）
当干扰为其他说话人时，可以称为 “多说话人分离”（Speaker Separation）
当干扰为目标说话人自己声音的反射波时，可以称为 “解混响”（De-reverberation）

由于麦克风采集到的声音中可能包括噪声、其他人说话的声音、混响等干扰，不做语音分离、直接进行识别的话，会影响到识别的准确率。因此在语音识别的前端加上语音分离技术，把目标说话人的声音和其它干扰分开就可以提高语音识别系统的鲁棒性，这从而也成为现代语音识别系统中不可或缺的一环。

基于深度学习的语音分离，主要是用基于深度学习的方法，从训练数据中学习语音、说话人和噪音的特征，从而实现语音分离的目标。

这次分享的内容有以下这 5 个部分：

分离使用的模型
训练目标的设置
训练数据的生成
单通道语音分离算法的介绍和讨论。

基于深度学习的语音分离方法使用的模型

第一类模型是多层感知机，DNN，可以先做 RBM 预训练，再做微调（fine-tune）；不过文仕学介绍，他们团队通过实验发现，在大数据集上不需要预训练也可以收敛。

LSTM（长短时记忆网络）的方法中把语音作为一个随时间变化的序列进行建模，比较适合语音数据；CNN（卷积神经网络）通过共享权值，可以在减少训练参数的同时获得比全连接的 DNN 更好的性能。

近些年也有人用 GAN（对抗性生成式网络）做语音增强。模型中通常会把生成器设置为全部是卷积层，为了减少训练参数从而缩短训练时间；判别器负责向生成器提供生成数据的真伪信息，帮助生成器向着 “生成干净声音” 的方向微调。

训练目标的设置

训练目标包括两类，一类是基于 Mask 的方法，另一类是基于频谱映射的方法。

基于 Mask 的方法又可以分为几类：

“理想二值掩蔽”（Ideal Binary Mask）中的分离任务就成为了一个二分类问题。这类方法根据听觉感知特性，把音频信号分成不同的子带，根据每个时频单元上的信噪比，把对应的时频单元的能量设为 0（噪音占主导的情况下）或者保持原样（目标语音占主导的情况下）。
第二类基于 Mask 的方法是 IRM（Ideal Ratio Mask），它同样对每个时频单元进行计算，但不同于 IBM 的 “非零即一”，IRM 中会计算语音信号和噪音之间的能量比，得到介于 0 到 1 之间的一个数，然后据此改变时频单元的能量大小。IRM 是对 IBM 的演进，反映了各个时频单元上对噪声的抑制程度，可以进一步提高分离后语音的质量和可懂度。

TBM 与 IRM 类似，但不是对每个时频单元计算其中语音和噪声的信噪比，而是计算其中语音和一个固定噪声的信噪比
SMM 是 IRM 在幅度上的一种形式
PSM 中加入了干净语音和带噪语音中的相位差信息，有更高的自由度

虽然基于 Mask 的方法有这么多，但最常用的还是开头的 IBM 和 IRM 两种

如果使用频谱映射，分离问题就成为了一个回归问题。

频谱映射可以使用幅度谱、功率谱、梅尔谱以及 Gammatone 功率谱。Gammatone 是模拟人耳耳蜗滤波后的特征。为了压缩参数的动态范围以及考虑人耳的听觉效应，通常还会加上对数操作，比如对数功率谱。

基于频谱映射的方法，是让模型通过有监督学习，自己学习有干扰的频谱到无干扰的频谱（干净语音）之间的映射关系；模型可以是 DNN、CNN、LSTM 甚至 GAN。

这一页是使用相同的 DNN 模型、相同的输入特征、不同的训练目标得到的结果。

左边的 STOI 指语音的可懂度，得分在 0 到 1 之间，越高越好；右边的 PESQ 是语音的听觉质量、听感，范围为 - 0.5 到 4.5，也是越高越好。

基于 Mask 的方法 STOI 表现较好，原因是有共振峰的能量得到了较好的保留，而相邻共振峰之间波谷处的声音虽然失真较大，但人耳对这类失真并不敏感；两类方法在 PESQ 中表现相当。

训练数据的生成

针对语音分离中的语音增强任务，首先可以通过人为加噪的方法生成带噪语音和干净语音对，分别作为输入和输出（有标注数据），对有监督学习模型进行训练。加入的噪声可以是各种收集到的真实世界中的噪声。

不过收集噪声需要成本，而且人工能够收集到的噪音总是有限的，最好能够有一套完备、合理的方案，用仿真的方式生成任意需要的噪声。在今年的 MLSP（信号处理机器学习）会议上，搜狗语音团队就发表了一项关于噪声基的工作，通过构造一个噪声基模型，在不使用任何真实噪音数据的情况下，生成带噪语音对语音增强模型进行训练，达到了与使用 50 种真实噪音的情况下相当的性能（下图）。