语音合成：模拟最像人类声音的系统

2021 年 11 月 30 日 PaperWeekly

近年来随着深度学习技术的不断发展，语音合成技术也取得了突破性进展，也成为了很多设备的标配。比如siri通过手机跟我们讲冷笑话，车载音箱实时播报汽车的行进路线等等无不用到语音合成。

并且，深度神经网络在语音合成模型与声码器中的应用，使得端到端语音合成系统得到飞速进展。序列到序列（seq2seq）模型框架简洁，无需帧级对齐，声学时长联合建模，避免级联误差，也无需复杂文本特征。Google在2017年提出了一种新的端到端的语音合成系统Tacotron，借助深度学习模型的强表达能力，表现出惊人的合成效果。

目前国内的语音合成技术趋于成熟，但是企业对语音合成候选人的要求也极高。语音技术相较于AI其他方向而言，具有典型的跨学科特点。除了声学、语音语言学、信号处理等，还要会编程语言，并且要对常见的深度学习模型有深入了解，以及对语音合成本身的Tacotron、WaveNet等系统异常熟悉。内容涉及的越广泛，大家学习周期也就越长，企业的人才缺口也会相应的增加。

并且语音合成算法工程师的薪资也极为可观，基本是30k/月起步。（是不是很心动！）

而国内高校并没有培养对应人才的学习机制，并且，真正想学习的同学，在网络上都很难搜索到系统地学习语音合成的相关资料，更别说还需要相关项目来动手实践了，终究是“巧妇难为无米之炊”。

深蓝学院特邀西北工业大学教授、博导谢磊团队讲授《语音合成：基础与前沿》课程，既讲解传统语音合成算法（帧级+信号声码器），而且讲解端到端语音合成进阶算法，最后带大家实现语音合成应用，如风格化语音合成、多说话人建模与说话人自适应技术。

◐

1.讲师团队介绍

左右滑动查看更多

◐

2. 实践项目

0 1

实现基于CRF的分词

学习如何使用CRF实现中文分词，了解CRF的数据格式、训练流程以及测试客观指标。通过该实践能够快速搭建一套分词系统。

0 2

World vocoder参数提取与合成

基于World vocoder实现参数的提取与合成，旨在了解传统语音声码器中各个参数，包括基频、频谱包络以及非周期信号。同时尝试使用这些特征还原语音，并且对比各种采样率下的不同还原效果。

0 3

基于LSTM/GRU的声学与时长模型

在此实践中，我们将基于Tensorflow实现递归神经网络LTSM/GRU的语音合成时长与声学模型。从而将设计好的文本特征经过时长和声学模型，合成语音。

0 4

实现基于Tacotron的声学模型

基于Tensorflow构建Tacotron模型，包括特征处理、模型训练和解码等。旨在了解Tacotron各个模块的细节，以及如何基于注意力机制构建序列到序列声学模型。

0 5

实现基于LSA的注意力机制

基于Tensorflow实现Location-sensitive attention (LSA)机制。旨在进一步了解注意力机制的基础原理以及使用方法，并尝试寻找更符合语音特点的注意力机制。

0 6

实现基于Mel特征的WaveRNN

基于Tensorflow实现基于Mel特征的WaveRNN神经声码器，从而将谱特征转换为真实语音波形。同时可以考虑对原始模型进行扩展或改进以提高训练速度。

◐

3. 课程亮点

1.本课程全面覆盖当前主流算法和模型，学习省时省力；

2.授课团队为国内知名的语音团队——西北工业大学谢磊团队；

3.理论与实践相结合。每章节课程后的都会配有相应的作业，助教1V1批改；

4.班主任带班。督促学习（告别拖延~）；

5.超优质的学习圈子。学习本课程的同学来自超牛的学校与企业。

◐

4. 课程收获

1.掌握传统语音合成系统中文本正则化、分词、注音、韵律预测等前端子模块的作用以及基于BLSTM+CRF的方法；

2.掌握传统语音合成系统中主流后端算法，包括基于HMM/NN的统计参数模型，以及基于单元拼接的方法；

3.领悟基于Attention的序列到序列算法的思想，掌握Tacotron模型的细节；

4.深入了解更适合语音任务的Attention机制及其应用；

5.熟悉基于WaveNet的神经网络声码器以及WaveRNN和LPCNet声码器的原理。

咨询更多

扫码添加深蓝学院-叶子

备注【130】，才会通过好友哦！

咨询课程可免费领取试听课哦~

登录查看更多

相关内容

语音合成

关注 489

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

多语言语音识别声学模型建模方法最新进展

专知会员服务

31+阅读 · 2022年2月7日

基于深度学习的语音合成与转换技术综述

专知会员服务

27+阅读 · 2021年8月16日

人工智能在5G系统中应用综述

专知会员服务

46+阅读 · 2021年6月3日

斯坦福《CS230：深度学习》2021课程，吴恩达带队授课

专知会员服务

51+阅读 · 2021年6月2日