绝佳的ASR学习方案：这是一套开源的中文语音识别系统

2019 年 2 月 11 日 机器之心

机器之心编辑

作者：AI柠檬博主

语音识别目前已经广泛应用于各种领域，那么你会想做一个自己的语音识别系统吗？这篇文章介绍了一种开源的中文语音识别系统，读者可以借助它快速训练属于自己的中文语音识别模型，或直接使用预训练模型测试效果。所以对于那些对语音识别感兴趣的读者而言，这是一个学习如何搭建 ASR 系统的极好资料。

ASRT 是一套基于深度学习实现的语音识别系统，全称为 Auto Speech Recognition Tool，由 AI 柠檬博主开发并在 GitHub 上开源（GPL 3.0 协议）。本项目声学模型通过采用卷积神经网络（CNN）和连接性时序分类（CTC）方法，使用大量中文语音数据集进行训练，将声音转录为中文拼音，并通过语言模型，将拼音序列转换为中文文本。基于该模型，作者在 Windows 平台上实现了一个基于 ASRT 的语音识别应用软件它同样也在 GitHub 上开源了。

ASRT 项目主页：https://asrt.ailemon.me
GitHub 项目地址：https://github.com/nl8590687/ASRT_SpeechRecognition

这个开源项目主要用于语音识别的研究，作者希望它可以一步步发展为极高准确率的 ASR 系统。此外，因为模型和训练代码都是开源的，所以能节省开发者很多时间。同样，如果开发者想要根据需求修改这个项目，那也非常简单，因为 ASRT 的代码都是经过高度封装的，所有模块都是可以自定义的。如下展示了该项目的一些特征：

系统流程

特征提取：将普通的 wav 语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号，即语谱图。

声学模型：基于 Keras 和 TensorFlow 框架，使用这种参考了 VGG 的深层的卷积神经网络作为网络模型，并训练。

CTC 解码：在语音识别系统的声学模型输出中，往往包含了大量连续重复的符号，因此，我们需要将连续相同的符号合并为同一个符号，然后再去除静音分隔标记符，得到最终实际的语音拼音符号序列。

语言模型：使用统计语言模型，将拼音转换为最终的识别文本并输出。拼音转文本本质被建模为一条隐含马尔可夫链，这种模型有着很高的准确率。

使用流程

如果读者希望直接使用预训练的中文语音识别系统，那么直接下载 Release 的文件并运行就好了：

下载地址：https://github.com/nl8590687/ASRT_SpeechRecognition/releases/tag/v0.4.2

如果读者希望修改某些模块，或者在新的数据集上进行训练，那么我们可以复制整个项目到本地，再做进一步处理。首先我们通过 Git 将本项目复制到本地，并下载训练所需要的数据集。作者在项目 README 文件中提供了两个数据集，即清华大学 THCHS30 中文语音数据集和 AIShell-1 开源版数据集。

$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git

THCHS30 和 ST-CMDS 国内下载镜像：http://cn-mirror.openslr.org/

在下载数据集后，我们需要将 datalist 目录下的所有文件复制到 dataset 目录下，也就是将其与数据集放在一起：

$ cp -rf datalist/* dataset/

在开始训练前，我们还需要安装一些依赖库：

python_speech_features
TensorFlow
Keras
wave

当然，其它如 NumPy、Matplotlib、Scipy 和 h5py 等常见的科学计算库也都是需要的。一般有这些包后，环境应该是没什么问题的，有问题也可以根据报错安装对应缺少的库。

训练模型可以执行命令行：

$ python3 train_mspeech.py

测试模型效果可以运行：

$ python3 test_mspeech.py

测试之前，请确保代码中填写的模型文件路径存在。最后，更多的用法和特点可以查看原 GitHub 项目和文档。

本文为机器之心编辑，转载请联系原作者获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

登录查看更多

相关内容

语音识别

关注 753

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

深度学习自然语言处理进展综述论文

专知会员服务

201+阅读 · 2020年3月6日

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

专知会员服务

26+阅读 · 2020年2月16日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

专知会员服务

39+阅读 · 2020年1月30日

【电子书推荐】入门深度学习的Python书籍，Grokking Deep Learning最新版，Google DeepMind|Andrew Trask

专知会员服务

28+阅读 · 2019年12月5日

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

专知会员服务

57+阅读 · 2019年11月21日

【书籍】深度学习框架：PyTorch入门与实践（附代码）

专知会员服务

167+阅读 · 2019年10月28日

神经网络与深度学习，复旦大学邱锡鹏老师

专知会员服务

121+阅读 · 2019年9月24日

2019年，这8款自动语音识别方案你应该了解！

AI前线

8+阅读 · 2019年9月13日

NLP 新手必看！这是一份覆盖全面的基于 PyTorch 和 keras 的 NLP 学习教程

雷锋网

3+阅读 · 2019年3月29日

博客 | 论文解读：对端到端语音识别网络的两种全新探索

AI研习社

5+阅读 · 2018年11月11日

开源自动语音识别系统wav2letter (附实现教程)

七月在线实验室

10+阅读 · 2018年1月8日

【推荐】中文处理(BiLSTM分词)工具包FoolNLTK

机器学习研究会

6+阅读 · 2017年12月27日

语音识别现状与工程师必备技能

人工智能头条

5+阅读 · 2017年11月21日

资源 | 适合AI新手的9款人工智能开源软件

AI100

3+阅读 · 2017年11月13日

一文读懂语音识别史

机械鸡

9+阅读 · 2017年10月16日

小米的语音识别系统是如何搭建的

深度学习每日摘要

5+阅读 · 2017年9月3日

语音识别之--CNN在语音识别中的应用

微信AI

9+阅读 · 2017年8月16日

Transformer based Grapheme-to-Phoneme Conversion

Arxiv

6+阅读 · 2020年4月14日

Fine-grained robust prosody transfer for single-speaker neural text-to-speech

Arxiv

5+阅读 · 2019年7月4日

Monocular Plan View Networks for Autonomous Driving

Arxiv

6+阅读 · 2019年5月16日

Multi-task learning to improve natural language understanding

Arxiv

4+阅读 · 2018年12月17日

Neural Architecture Optimization

Arxiv

8+阅读 · 2018年9月5日

Automatically Designing CNN Architectures for Medical Image Segmentation

Arxiv

10+阅读 · 2018年7月19日

Are Generative Classifiers More Robust to Adversarial Attacks?

Arxiv

4+阅读 · 2018年7月9日

Learning Matching Models with Weak Supervision for Response Selection in Retrieval-based Chatbots

Arxiv

4+阅读 · 2018年5月7日

Fake Colorized Image Detection

Arxiv

6+阅读 · 2018年1月14日

Weakly Supervised One-Shot Detection with Attention Siamese Networks

Arxiv

14+阅读 · 2018年1月12日

VIP会员