CIF:基于神经元整合发放的语音识别新机制

2020 年 3 月 2 日 AI科技评论

作者 | 中科院自动化所

编辑 | 贾伟


为解决经典的注意力语音识别模型不支持在线识别、边界定位等问题,中科院自动化所董林昊博士、徐波研究员将脉冲神经网络中的整合发放思想进行连续化,提出一种低复杂度并具有单调一致性的序列转换机制——连续整合发放(Continuous Integrate-and-Fire,CIF)。基于CIF的模型不仅有效地支持了在线识别、边界定位及声学 Embedding 提取,而且在两个中文基准语音识别集(HKUST、AISHELL-2)上创造了SOTA的性能。相关成果被ICASSP 2020录用为Oral论文。


论文题目:CIF: Continuous Integrate-and-Fire for End-to-End Speech Recognition
论文地址:https://arxiv.org/pdf/1905.11235.pdf 

基于注意力机制的端到端模型正深刻影响着语音识别技术的发展。但经典的注意力识别模型因 “要对整句语音编码后投入注意力” 的特点面临着无法支持在线(流式)识别、无法提供语音边界时间戳等问题。

中科院自动化所董林昊博士、徐波研究员将脉冲神经网络中的整合发放思想进行连续化,提出一种低复杂度并具有单调一致性的序列转换机制——连续整合发放(Continuous Integrate-and-Fire,CIF)。 CIF会对先后到来的声学信息依次进行整合,当整合的信息量达到识别阈值,将整合后的信息发放以用作后续识别。 其与注意力模型的对齐形态对比如下图1所示。

图1. CIF机制与注意力机制的对齐形态对比

连续整合发放(CIF)应用于编解码框架。在每一个编码时刻,CIF分别接收编码后的声学编码表示及其对应的权重(表征了蕴含的信息量)。之后,CIF不断地积累权重并对声学编码表示进行整合(加权求和的形式)。

当积累的权重达到阈值后,意味一个声学边界被定位到。此时,CIF模拟了整合发放模型的处理思想,将当前编码时刻的信息分为两部分(如图1右图所示):

一部分用来完成当前标签的声学信息整合(权重可构建一个完整分布)。

另一部分用作下一个标签的声学信息整合。

之后CIF将整合后的当前声学信息(声学Embedding)发放到解码器以立即预测对应的标签。以上过程一直执行到编码后序列的末尾。不仅如此,论文还提出了若干支撑策略来进一步精炼CIF模型的性能,如规整策略、数量损失等。

该研究工作在多个语音识别基准数据集上对CIF模型的性能进行了验证,这些数据集涵盖了不同的语种和不同的语音类型。

如图2所示,在英文朗读数据集Librispeech上,虽然采用的输出标签是没有明确声学边界的子词单元,但基于CIF的模型仍然获得了有竞争力的2.86%的词错误率表现。

如图3所示,在中文朗读数据集AISHELL-2上,由于输出标签间的声学边界较为清楚,基于CIF的模型获得了突出的性能表现,显著地超过了Chain模型的性能,创造了state-of-the-art的字错误率结果。

如图4所示,在中文电话数据集HKUST上,虽然语音上具有很多非正式的口语现象,而且数据集规模相对较小,但是基于CIF的模型仍然展现了良好的泛化性,创造了23.09%的state-of-the-art的字错误率结果。

CIF模型不但可以高准确度提供序列转化结果,而且 把语音认知中最重要的发音边界进行了精确定位 ,为语音识别融合各种知识模型提供了新的手段和路径。 CIF将整合发放进行连续化思想可推广应用到其它序列转换任务中

据悉,该论文工作在研究团队 万级小时大规模训练数据的语音识别 中,也超过了团队目前CTC、Transformer等主流模型的已有结果,达到了最好性能,意味着该方法具有工业界大规模应用的极大潜能。

图2. 在英文朗读数据集Librispeech上,CIF模型与已发表模型词错误率对比

图3. 在中文朗读数据集AISHELL-2上,CIF模型与已发表模型的字错误率对比

图4. 在中文电话数据集HKUST上,CIF模型与已发表模型的字错误率对比




登录查看更多
2

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
模型优化基础,Sayak Paul,67页ppt
专知会员服务
74+阅读 · 2020年6月8日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
语音识别中的CTC算法的基本原理解释
数盟
4+阅读 · 2018年6月24日
前沿 | 简述脉冲神经网络SNN:下一代神经网络
机器之心
36+阅读 · 2018年1月13日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
人工神经网络算法及其简易R实现
R语言中文社区
18+阅读 · 2017年8月5日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
22+阅读 · 2018年8月3日
Arxiv
15+阅读 · 2018年2月4日
VIP会员
相关VIP内容
模型优化基础,Sayak Paul,67页ppt
专知会员服务
74+阅读 · 2020年6月8日
相关资讯
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
语音识别中的CTC算法的基本原理解释
数盟
4+阅读 · 2018年6月24日
前沿 | 简述脉冲神经网络SNN:下一代神经网络
机器之心
36+阅读 · 2018年1月13日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
人工神经网络算法及其简易R实现
R语言中文社区
18+阅读 · 2017年8月5日
Top
微信扫码咨询专知VIP会员