《语音识别服务实战》| 文末赠书

2022 年 3 月 18 日 AI前线

目前，语音识别技术属于 AI 领域中最为成熟落地的技术之一。在华西证券发布的智能语音报告中，在 2019 年人工智能技术的市场份额中，智能语音已经达到 22%，仅次于计算机视觉。

从 20 世纪 50 年代语音数字识别系统“Audry”发布开始，语音识别在产业落地的尝试就没有停止过。但是直到2011年，iPhone 4S同Nuance合作推出语音助手“Siri” 及 2014 年亚马逊发布第一款智能音箱 Echo，才标志着智能语音领域的产业化加速推进。斯坦福发布的 2021 AI Index Report 显示，2020 年全球在智能语音、人机交互领域的投资额从 2019 年的 10 亿美元左右增加到了 30 亿美元，智能语音的应用涵盖了金融、医疗健康、商业、法律、专业服务和其他的高科技行业。

目前，语音识别技术的应用可以分为消费级市场和企业级市场。

消费级市场

1. 智能家居

相对于传统的控制、交互形式，在智能家居领域中使用语音交互对于用户会更加便捷。亚马逊、谷歌、百度、小米、阿里巴巴等企业都先后发布了自己的智能音箱产品。目前，智能音箱作为所有智能家居交互的入口，扮演着一个非常重要的角色，且不用附加在一些重服务家电上。除了常规的日程设置、音乐播放、天气等信息查询，智能音箱还可以控制灯光、空调、电视、窗帘、门窗、安防与监控等。未来的家居场景，是全屋产品的智能化，届时语音与其他技术会更加深度地融合。图 1-4 展示了几种智能音箱的形态。

2. 智慧生活与办公

智慧生活是一个比较宽泛的场景，包括语音控制硬件、可穿戴设备和语音助手等。智能可穿戴设备趋于小屏化、无屏化的特点决定了智能语音将成为其天然入口，无论是眼镜、耳机，还是手表、手环，语音交互会更方便也更自然。语音助手更是语音识别深度学习时代最早的落地产品，根据 Strategy Analytics 的预计，到 2023 年，90%的智能手机都会配备 AI 语音助手。

其他的消费级产品还包括翻译机、录音笔、语音输入法等，这些产品强依赖于语音识别技术本身的准确率，在办公、教育、旅游等领域的应用也都越来越广泛。

3. 智能汽车

另一个正在飞速发展的智能语音落地场景，是智能汽车。除了 L4，L5 级别的自动驾驶，车载语音交互作为智能座舱中的一部分，在未来汽车形态中扮演着更加重要的角色。与传统车载系统通过按键或者屏幕操控不同，多模态融合检测、智能语音交互、多屏互动手势操作等一系列技术，将成为下一代智能座舱的标配。由于车内环境相对稳定，语音识别率较高，因此座舱内是部署语音交互的极佳落地场景。由此带来的司机双手的解放不仅能增强安全性，也能极大地提高用户驾驶体验。

企业级市场

1. 语音质检

语音质检普遍被应用在智能外呼和客服领域。通过语音识别与声纹识别的相关技术，不仅可以对客户说话的内容进行语音语义分析，挖掘客户潜在需求，进行用户画像，提供个性化的客户服务与产品的精准营销，还可以对对话内容的合规性进行稽核与审查，进一步提升服务满意度。一个完整的智能客服语音交互流程，如图 1-5 所示。

智能客服语音质检服务根据业务类型，将音频分为实时音频流与离线音频流，分别用于事中分析和离线 T+1 事后分析场景。由于客服电话的系统不同，业务所承载的音频格式也千差万别。例如，有的系统使用传统电话信道 8000 采样率的Alaw/Ulaw PCM 音频，有的系统使用 SIP 软交换的 16 000 采样率的 ADPCM 音频，有的系统使用单通道音频，有的系统使用全双工通信，有的系统为了节省存储空间使用 MP3，WMA 等压缩格式存储音频等。因此，客服语音交互首先需要通过音频编解码模块对音频编码及格式进行统一，并根据是否为全双工通信完成左右声道分离，或者将左右声道合并成单通道语音流；然后根据不同业务场景的需求，使用 VAD（Voice Activity Detection，语音活动检测）模块或说话人日志模块，将语音文件进行切分。在进行语音识别前，可基于语音对客户的情绪、性别、年龄进行检测，对用户画像维度进行补全，对客服的语速、停顿时长进行检测，统计有效通话时长及业务服务的熟练度。在对语音内容进行识别后，可进一步结合业务场景，使用 NLP（Natural Language Processing，自然语言处理）进行语义分析，完成客户需求的挖掘和客服质检的稽核。对于一些智能座席的呼入场景，还可以使用 TTS（Text To Speech，文本到语音）语音合成完成 NLP 分析的结果输出与播报。

2. 智慧物流

拣货是物流仓储作业中成本最高的一项任务，占总体作业量的 50%～70%。语音拣货是仓库作业人员通过蓝牙耳麦与语音系统对话推进拣货工作的方式。传统的语音拣选是人与人沟通，指示拣货员挑选货物，耗时长，成本高。而通过语音识别和合成技术，可以使仓库作业人员直接与仓库管理系统进行对话沟通。系统通过语音指导作业员到指定区域的库位拿取或放置货品；作业员通过语言进行动作确认，仓库管理系统直接识别作业人员的语音进行相应的数据处理。

3. 智慧教育

在教育领域中，语音技术主要分为课堂质量辅助和线上虚拟教学两部分。前者通过融合语音、视觉及文字技术，辅助教师授课，实现实时字幕转录、重点内容快速定位、课堂数据分析等。新冠肺炎疫情以来，线上教学的需求量越来越大，受教师人数的限制，传统的线上授课教师不能照顾到每一个学生的具体情况。而基于语音交互的虚拟教师结合 VR 技术，可以摆脱教师人数的限制，一对一授课，并进行精准分析，提升学生学习的效果。语音评测和人机对话技术结合语义技术应用到普通话、古诗词及外语教学中，可以快速纠正发音韵律及语法错误，并且逐渐被应用到考试场景中。

除了企业级市场，面向家长和学生的智能学习机也是这一领域的重要产品。

4. 智能医疗

智能语音在医疗场景的主要应用有电子病历、医院导诊和医生辅助诊断等。电子病历通过语音输入的方式生成结构化病例，执行病例检索，节约医师输入和查询病历的时间。在医院大厅导诊、后续的随访及辅助医生决策支持中，智能语音也能发挥重要作用。

以上内容节选自《语音识别服务实战》一书，更多内容推荐阅读此书！

荐书：语音识别服务实战

各类应用的蓬勃发展是的越来越多的人加入语音领域的研究与落地，共同推动语音产业的发展。考虑到很多智能语音行业从业人员，需要了解完整的语音识别系统链路构建，每一个模块的算法研发以及如何构建一个快速、轻量、便捷的服务。《语音识别服务实战》 针对这些问题，在书中做出了详尽的解答。

本书第一部分从语音识别技术发展脉络开始，介绍了当前语音识别的最新进展及相关产业应用。

第二部分为语音前端算法。针对语音前端算法的研究已经有数十年的历史，最早主要是针对语音通话中环境噪声和回声的消除。而随着语音识别技术的兴起，很多前端处理技术也被用到了语音交互系统中，包括单通道降噪、声音活动检测（Voice Activity Detection，VAD）、声学回声消除（Acoustic Echo Cancellation，AEC），也包括针对麦克风阵列的波束形成（Beamforming）和声源测向（Direction of Arrival，DOA）等。本书除了介绍算法的基本原理之外，针对算法在落地时可能遇到的问题，提供了大量实用的算法改进思路和工程技巧，将算法理论和工程实践有机地结合到一起。本书还介绍了如何根据实际场景，利用这些模块搭建一套完整的语音前端处理系统。近年来，随着深度学习的兴起，语音前端领域也正处于从传统DSP算法到深度学习方法的过渡过程当中。本书中不仅介绍了传统语音前端算法，也对当前业界基于神经网络的语音前端算法的发展进行了总结和展望。

第三部分主要介绍语音识别，书中详细介绍了包括特征处理、声学模型、语言模型、解码器以及端到端语音识别在内的语音识别算法原理，以及一些业界最新进展，例如LF-MMI、预训练语言模型、Transformer等等。同时，以常见的语音识别工具kaldi中的multi_cn为例子，介绍了如何训练自己的语音识别模型。此外，还针对一些训练过程中的细节问题，提供了详尽的解释。

第四部分为说话人日志算法，这是一种集语音活动检测，声纹识别，聚类等多项技术为一体的语音综合应用，相比于简单的语音活动检测，在对话场景下，说话人日志算法可以提供更为精确说话人转换切分点，使得语音识别系统能够更好的识别上下文信息，因而常与语音识别，自然语言处理技术相结合，被广泛应用于智能客服质检，会议记录，金融保险，刑侦审讯等领域；在本书中，详细介绍了说话人日志算法的各核心模块，并对各模块的训练与优化、落地使用中的关键点进行了思考和总结。

除了介绍算法原理、模型训练与优化外，书中还重点关注在语音服务的工程应用的落地上，基于Kaldi和Webrtc，有机的结合了语音前端VAD算法、说话人日志算法和语音识别算法，构建起一套完整的语音算法SDK，并基于工业届流行的gRPC远程过程调用框架，实现了完整的说话人日志服务和语音识别服务。本书少见的提供了完整的SDK与服务构建的工程代码和测试示例，进一步拉近了学术界与产业界的距离，读者可基于本书的内容，快速构建自己的高可用、稳定的语音服务。

关于本书作者

杨学锐
大疆创新语音交互算法负责人，复旦大学及Turku大学硕士，长期从事语音算法、深度学习、人工智能等领域的研究与商业落地，在相关领域发表多篇论文及专利。
晏超
北京邮电大学硕士，曾任职于HP Labs, Cisco, Technicolor等公司。现为云从科技语音算法负责人，从事语音识别、声纹识别、说话人日志、语音合成等方向的算法研发工作，构建了云从科技整套语音算法引擎与应用服务平台。
刘雪松
OPPO音频算法专家，复旦大学硕士，曾任职于美国国家仪器、声网、云从科技等公司。在信号处理、音频算法和语音算法等领域有丰富的实战经验，在相关领域发表多篇论文及专利。