谷歌提出全新视觉-音频分离模型，解决鸡尾酒会效应

2018 年 4 月 17 日 引力空间站 AI前线

在鸡尾酒会嘈杂的人群中，尽管周围噪声很大，但人类依然能够屏蔽其他声音而将注意力集中在自己所关注的那个人的讲话内容上。这就是鸡尾酒会效应，这是人类与生俱来的“超能力”。

然而，在计算机科学中，将音频信号分离为各自独立的声源即自动语音分离，仍旧是一个具有挑战性的任务，并且是一个非常值得研究的问题。近日，谷歌研究团队发表了针对这一问题的论文，公布其最新研究成果，能够基于深度学习将一个单独的语音信号从混合的音频中分离出来。

在论文“Looking to Listen at the Cocktail Party”中，谷歌团队提出了一种基于深度学习的音频 - 视觉模型，该模型可以将一个单独的语音信号从混合的音频中分离出来，比入从其他语音信号和背景噪声中分离出来（译者注：这里的语音信号专指讲话或演讲这一类音频信息）。

在这项工作中，可以通过计算生成的新的视频，使原视频中的某个特定人物的语音得到增强，同时抑制其他所有的声音。该方法适用于所有包含单音轨的普通视频，用户只需要选择他们想要听的视频中人物的脸部。作者认为这个功能将会有广泛的应用，例如，视频的语音增强与识别，视频会议的通话降噪，改进助听器，尤其是在多人讲话的情况下这个功能显得更为重要。

该工作的亮点主要是将输入视频的音频和视觉信号相结合，使用混合信号进行语音分离。比较直观的解释是，讲话者嘴部的运动与说话时发出的声音应该是有所关联的，这个信息对识别音频信号应该与哪个讲话者相对应有很大帮助。

视觉信号不仅能显著提高复杂语音环境下的语音分离的效果（与单独使用音频信号进行语音分离相比，在论文中有详细的说明），这种方法还可以将分离的音轨与视频中的人物联系起来。

上图是该方法的工作示意图，输入是一个包含多人讲话的视频，由其他讲话者或者背景噪声决定哪个讲话者是感兴趣的讲话者。输出是分离后的音轨，每个音轨只含有一个特定的讲话者的声音。

音频 - 视觉语音分离模型

为了生成训练样本，作者在 YouTube 上收集了包含 10 万个对话与演讲的高质量视频，组成了一个大型视频数据集。在这些视频中，作者提取了干净的语音片段（例如没有混合的音乐，观众的声音或者其他讲话者）和一些只包含单独讲话者的视频帧。这样就获得了额大约 2000 小时的视频片断，这些视频中每个讲话者都会出现在画面中并且没有背景噪声的干扰。然后作者使用这个干净的数据集合成“鸡尾酒会”——将这些独立的视频混合，包括混合讲话者的声音与从音频集中获取的非语音的背景噪声。

利用这些数据，作者成功的训练了一个基于多流神经网络的模型，该模型可以将合成的视频分离成单独的音频流，并且音频流与视频中的讲话者一一对应。网络的输入每帧中讲话者的人脸部分，以及其对应的音轨的声谱图。训练期间，网络独立地学习对视频以及音频信号编码，然后将它们融合成一种联合的音频 - 视觉表示。通过这种联合表示，网络学习输出一种时频掩模，时频掩模与输入的声谱图进行混合可以得到一种时域波形信号，每个波形信号只包含一个单独的讲话者的声音。下图是该模型的框架：