端到端自动语音识别(E2E ASR)在过去十年中取得了显著进展。然而,在将这些语音识别系统应用于真实世界场景时,仍然面临诸多实际挑战。本文探讨了与语音识别系统效率和可靠性相关的四个关键问题:(1)多语种语音识别中的数据稀缺问题;(2)代表性不足的语音样本;(3)资源受限环境下的部署难题;(4)识别结果的不可靠性。

开发多语种语音识别(MASR)模型为提升低资源语言的识别性能提供了一个有前景的方向。为缓解语言干扰问题,我们引入了一个包含多种监督与自监督训练目标的单阶段训练过程,结合层级信息路径。同时,我们认为持续的语言学习对于提升MASR的训练效率至关重要。我们构建了一个参数高效的语言扩展框架,使现有MASR模型能够拓展支持新语言。

对于代表性不足的语音样本,即使是大型语音识别模型也需要进行适应。为提高适应效率,我们提出了一种稀疏共享的低秩适应(LoRA)方法,特别适用于使用少量目标领域数据对大型模型进行高效适应。 此外,在资源受限的设备上部署大型模型具有挑战性。我们设计了一种基于相关性度量的快速层剪枝算法,用以剔除语音识别声学模型中的冗余层,从而提升推理效率。

另一方面,我们也认识到在具有挑战性的场景中识别错误是难以完全避免的。为此,我们研究了神经网络置信度度量方法,为语音识别输出提供可靠性指标。

成为VIP会员查看完整内容
10

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【ETHZ博士论文】机器学习代码: 安全性与可靠性
专知会员服务
19+阅读 · 2024年10月25日
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
30+阅读 · 2024年8月23日
【CMU博士论文】经典方法对现代机器学习的改进
专知会员服务
26+阅读 · 2024年8月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
168+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
167+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员