【紫冬声音】自动化所智能交互团队在噪声环境下语音识别性能方面取得新进展

2018 年 6 月 12 日 中国自动化学会

 在互联网和移动互联网时代,以PC和智能手机为载体的图形视觉交互是最主要的人机交互方式,占据了绝大部分用户流量入口。在更多智能设备的物联网时代,除了触屏之外,语音交互被普遍视为最有可能成为下一代信息、内容以及服务的核心入口之一。目前,语音交互赛道已汇集了互联网巨头、知名硬件企业、电商平台、传统家电厂商以及各类人工智能初创公司,特别是近几年以智能音箱为代表的语音交互产品在国内外的火爆,极大地激发了语音交互技术的应用和发展。深度学习的突破极大地促进了语音识别技术的发展。目前语音识别系统在近场环境下已取得相当好的性能,甚至超过人类水平。然而在真实环境中,语音信号不可避免地受到噪声和混响的干扰,特别在远场条件下,由于声波在传播过程中其能量随传播距离呈指数衰减,语音信号受到噪声和混响的干扰更加严重,极大地影响了语音识别等语音交互应用的性能。

为了提高语音识别系统的噪声鲁棒性,最直接的手段就是收集大量真实环境的语音数据进行带噪训练。这种方法虽然简单,但真实环境复杂多变,数据收集和训练的代价比较大,很难覆盖所有应用场景,性能提升比较有限。另外一种重要的方法是采用语音增强作为语音识别系统的前端处理模块。一方面会带来处理流程和计算消耗的增加,甚至可能增加硬件成本(基于麦克风阵列的多通道语音增强),另一方面语音增强算法一般会基于自身的优化准则,并没有直接优化语音识别目标,消除噪声的同时可能会带来语音畸变。语音识别模型的噪声鲁棒性问题主要来源于纯净训练数据和带噪测试数据的分布差异。

生成式对抗网络(GAN, Generative Adversarial Networks)是最近极为流行的无监督生成模型。通过对抗训练的方式,它能够连续逼近指定的数据分布。GAN通常由生成器和判别器组成,生成器用来生成样本,判别器用来判断样本是否来自真实训练集。二者进行对抗训练,使得生成器生成的样本尽可能逼近真实训练数据。GAN不仅在图像领域取得了巨大的成功,在语音领域也有许多应用,例如语音转换、合成、增强等。  

针对语音识别系统在噪声环境下识别性能下降的问题,自动化所智能交互团队提出了深度对抗和声学模型联合训练的框架。该框架由生成器(G)、判别器(D)以及分类器(C)组成。生成器用来把带噪语音数据分布变成纯净语音;判别器用来判定语音信号是否来自真实纯净训练集;声学模型作为分类器,指导生成器提取区分性特征。生成器、判别器和声学模型进行联合对抗训练,三者相互配合相互促进。

   深度对抗训练框架  

通过深度对抗的联合训练策略,有效减小了噪声环境语音数据和真实训练数据的分布差异,提升了声学模型的鲁棒性。相对于语音增强方法,该框架没有增加计算的流程和复杂度,而且不需要一一对应的带噪数据和纯净数据,可作为通用训练框架提升已有声学模型的噪声鲁棒性。将提出的方法在Chime-4数据集上进行实验时,评价标准为词错误率。结果显示:测试集上超过了基线系统(29.29 vs 33.11),效果良好,验证了该方法的有效性。该研究组在基于深度对抗训练的领域自适应问题上进行了系列深入研究,目前已在OCR、鲁棒性语音识别和语音增强等领域取得多项优秀成果。  

来源:中国科学院自动化研究所

往期文章推荐

人工智能名人堂第49期 | 斯坦福研究院名人堂成员:Peter E. Ha

🔗【通知】中国自动化学会关于推荐联合国 可持续发展目标青年工程师奖项候选人的通知

🔗【通知】关于2018中国机器人大赛通知

🔗【重磅】众咖齐聚!2018智能汽车跨界融合高峰论坛开幕在即

🔗【学会新闻】IEEE人工智能与控制论国际研讨会 & 中国智联网大会在京成功召开

🔗 【通知】菲尼克斯智能技术创新与应用大赛即将启动!

🔗 【CAC2018】2018中国自动化大会论文投稿截至日期变更通知

🔗【通知】关于2018年度CAA科学技术奖励推荐工作的通知

🔗【重要通知】2018智能汽车跨界融合高峰论坛将于6月28日在江苏常熟召开

🔗【重要通知】“第一届军事大数据论坛”征文

🔗【观点】王飞跃:区块链如何为人工智能解锁新的领域

登录查看更多
5

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
最新《生成式对抗网络》简介,25页ppt
专知会员服务
168+阅读 · 2020年6月28日
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
53+阅读 · 2020年4月18日
陶建华、杨明浩谈多模态人机对话:交互式学习能力愈发重要
中国科学院自动化研究所
31+阅读 · 2019年7月17日
【团队新作】自动化所陶建华团队: 基于真实环境的面部表情分析
中国科学院自动化研究所
9+阅读 · 2019年5月9日
人脸识别研究取得进展
中科院之声
4+阅读 · 2019年3月26日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Arxiv
108+阅读 · 2020年2月5日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
10+阅读 · 2018年3月23日
VIP会员
相关资讯
陶建华、杨明浩谈多模态人机对话:交互式学习能力愈发重要
中国科学院自动化研究所
31+阅读 · 2019年7月17日
【团队新作】自动化所陶建华团队: 基于真实环境的面部表情分析
中国科学院自动化研究所
9+阅读 · 2019年5月9日
人脸识别研究取得进展
中科院之声
4+阅读 · 2019年3月26日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Top
微信扫码咨询专知VIP会员