端对端的深度卷积神经网络在语音识别中的应用

2017 年 7 月 18 日 深度学习每日摘要 DLdigest

端对端的深度卷积神经网络在语音识别中的应用

本文参考文献

Very Deep Convolutional Networks for End-to-End Speech Recognition

今天给大家介绍的是由MIT、CMU、Google Brain共同提出的深度卷积神经网络用于端对端的语音识别,这篇文章中提到了很多模型和技巧,个人觉得是一个非常综合性的模型,而且实验结果表明这个模型可以在WSJ任务上实现10.5%的单词错误率,不需要任何的语言模型,这是个人非常欣赏的地方。

一方面,近期的序列到序列(seq2seq)模型不仅在自然语言处理领域取得了新的成就,也同时为语音识别指明了另一个新的方向。不同于传统的语音识别系统,需要使用HMM或CTC来训练序列的整体概率,seq2seq仅仅凭借一个神经网络就可以实现完全端对端的训练语音识别系统,不需要任何额外的语言模型,这就是seq2seq的优势所在。

另外一方面,CNN相比于传统的循环神经网络(RNN)具有计算量小、容易刻画局部特征的优势,CNN的共享权重以及池化(pooling)层可以赋予模型更好的时域或频域的不变性,另外更深层的非线性结构也可以让CNN具备强大的表征能力,基于以上这些优势,CNN在语音识别上的应用日渐增多,因为现在我们不仅关心语音识别的准确率,更关心的是模型的训练速度。

seq2seq模型在语音识别上的应用其实之前也已经出现了,最典型的工作就是Listen, Attend and Spell论文,它是一个基于注意力机制的seq2seq模型,这也很容易理解,整个模型分为三部分:其中编码器承担Listen的角色,注意力机制承担Attend的角色,解码器承担Spell的角色。负责Listen的编码器是由多层双向长短期记忆网络(BLSTM)构成,而在今天这篇论文中,作者将BLSTM换成了深度卷积神经网络(Deep CNN)和BLSTM,而在解码器仍然是由LSTM构成。

在模型细节上,本文主要有以下几个特色:

使用了Network in Network(NiN)的模型来使得deep CNN以更少的参数拥有更强大的表征能力;
使用了Batch Normalization来加速模型的训练;
使用了Residual connection来克服因模型深度而带来的陷入局部最优的问题;
使用了Convolutional LSTM来减少LSTM的参数,将原有LSTM内部的乘法改成了卷积,得到更强的泛化能力;

文章的最优实验模型结构如下图所示,底部由两个卷积网络构成,使得特征在时间维度上进行降维,同时卷积层带有批归一化操作,因为批归一化操作可以提高训练速度加速模型收敛,紧接着是四个residual block,每个residual block由一个conv lstm和conv构成,最后是LSTM NiN模块。这样一个模型应用在seq2seq的编码器上,在WSJ任务上得到了最好的效果。


题图:Anil Saxena


你可能会感兴趣的文章有:

SampleRNN语音合成模型

详述DeepMind wavenet原理及其TensorFlow实现

Layer Normalization原理及其TensorFlow实现

Batch Normalization原理及其TensorFlow实现

Maxout Network原理及其TensorFlow实现

时延神经网络(TDNN)原理及其TensorFlow实现

ConvLSTM原理及其TensorFlow实现

Network-in-Network原理及其TensorFlow实现

如何基于TensorFlow实现ResNet和HighwayNet

常见的两种注意力机制

深度残差学习框架(Deep Residual Learning)

深度残差学习框架(续)

语音识别领域三十年来重要论文合集及其下载地址

推荐阅读 | 如何让TensorFlow模型运行提速36.8%

推荐阅读 | 如何让TensorFlow模型运行提速36.8%(续)

拥有1200多star的项目是什么样的心情

深度学习每日摘要|坚持技术,追求原创

微信ID:deeplearningdigest
长按二维码关注我
登录查看更多
6

相关内容

一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
168+阅读 · 2020年5月6日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
76+阅读 · 2020年2月3日
南洋理工大学,深度学习推荐系统综述
专知会员服务
172+阅读 · 2019年10月14日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
225+阅读 · 2019年10月12日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
105+阅读 · 2019年6月21日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
15+阅读 · 2018年7月26日
深度剖析卷积神经网络
云栖社区
7+阅读 · 2018年5月27日
改进语音识别性能的数据增强技巧
深度学习每日摘要
8+阅读 · 2018年4月22日
RNN在自然语言处理中的应用及其PyTorch实现
机器学习研究会
4+阅读 · 2017年12月3日
语音识别之--CNN在语音识别中的应用
微信AI
9+阅读 · 2017年8月16日
CNN、RNN在自动特征提取中的应用
乌镇智库
14+阅读 · 2017年8月4日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
10+阅读 · 2018年3月23日
Arxiv
9+阅读 · 2018年2月4日
Arxiv
15+阅读 · 2018年2月4日
Arxiv
8+阅读 · 2018年1月25日
VIP会员
相关VIP内容
相关资讯
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
15+阅读 · 2018年7月26日
深度剖析卷积神经网络
云栖社区
7+阅读 · 2018年5月27日
改进语音识别性能的数据增强技巧
深度学习每日摘要
8+阅读 · 2018年4月22日
RNN在自然语言处理中的应用及其PyTorch实现
机器学习研究会
4+阅读 · 2017年12月3日
语音识别之--CNN在语音识别中的应用
微信AI
9+阅读 · 2017年8月16日
CNN、RNN在自动特征提取中的应用
乌镇智库
14+阅读 · 2017年8月4日
相关论文
Arxiv
6+阅读 · 2019年7月11日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
10+阅读 · 2018年3月23日
Arxiv
9+阅读 · 2018年2月4日
Arxiv
15+阅读 · 2018年2月4日
Arxiv
8+阅读 · 2018年1月25日
Top
微信扫码咨询专知VIP会员