端到端自动语音识别(E2E ASR)在过去十年中取得了显著进展。然而,在将这些语音识别系统应用于真实世界场景时,仍然面临诸多实际挑战。本文探讨了与语音识别系统效率和可靠性相关的四个关键问题:(1)多语种语音识别中的数据稀缺问题;(2)代表性不足的语音样本;(3)资源受限环境下的部署难题;(4)识别结果的不可靠性。
开发多语种语音识别(MASR)模型为提升低资源语言的识别性能提供了一个有前景的方向。为缓解语言干扰问题,我们引入了一个包含多种监督与自监督训练目标的单阶段训练过程,结合层级信息路径。同时,我们认为持续的语言学习对于提升MASR的训练效率至关重要。我们构建了一个参数高效的语言扩展框架,使现有MASR模型能够拓展支持新语言。
对于代表性不足的语音样本,即使是大型语音识别模型也需要进行适应。为提高适应效率,我们提出了一种稀疏共享的低秩适应(LoRA)方法,特别适用于使用少量目标领域数据对大型模型进行高效适应。 此外,在资源受限的设备上部署大型模型具有挑战性。我们设计了一种基于相关性度量的快速层剪枝算法,用以剔除语音识别声学模型中的冗余层,从而提升推理效率。
另一方面,我们也认识到在具有挑战性的场景中识别错误是难以完全避免的。为此,我们研究了神经网络置信度度量方法,为语音识别输出提供可靠性指标。