In end-to-end (E2E) speech recognition models, a representational tight-coupling inevitably emerges between the encoder and the decoder. We build upon recent work that has begun to explore building encoders with modular encoded representations, such that encoders and decoders from different models can be stitched together in a zero-shot manner without further fine-tuning. While previous research only addresses full-context speech models, we explore the problem in a streaming setting as well. Our framework builds on top of existing encoded representations, converting them to modular features, dubbed as Lego-Features, without modifying the pre-trained model. The features remain interchangeable when the model is retrained with distinct initializations. Though sparse, we show that the Lego-Features are powerful when tested with RNN-T or LAS decoders, maintaining high-quality downstream performance. They are also rich enough to represent the first-pass prediction during two-pass deliberation. In this scenario, they outperform the N-best hypotheses, since they do not need to be supplemented with acoustic features to deliver the best results. Moreover, generating the Lego-Features does not require beam search or auto-regressive computation. Overall, they present a modular, powerful and cheap alternative to the standard encoder output, as well as the N-best hypotheses.


翻译:在端到端(E2E)语音识别模型中,编码器和解码器之间不可避免地出现了紧密耦合的代表性。我们在最近已经开始研究使用模块化编码表示构建编码器的基础上,使得来自不同模型的编码器和解码器可以以零增益的方式拼接在一起,而无需进行进一步的微调。尽管先前的研究仅涉及全文本语音模型,但我们也在流式设置下探索了这个问题。我们的框架建立在现有的编码表示之上,将其转换为模块化特征,称为Lego-Features,而无需修改预先训练的模型。在模型重新训练时,这些特征保持可互换,无需进一步的微调。尽管稀疏,但我们证明了Lego-Features在使用RNN-T或LAS解码器进行测试时是强大的,保持着高质量的下游性能。它们还足以表示经过两轮推理时的首次预测。在这种情况下,它们的表现优于N个最佳假设,因为它们不需要补充声学特征才能提供最佳结果。此外,生成Lego-Features不需要进行波束搜索或自回归计算。总的来说,它们是标准编码器输出以及N个最佳假设的模块化,强大和廉价的替代方案。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
32+阅读 · 2021年3月7日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
SIGIR2019 接收论文列表
专知
18+阅读 · 2019年4月20日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
从 Encoder 到 Decoder 实现 Seq2Seq 模型
AI研习社
10+阅读 · 2018年2月10日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月22日
VIP会员
相关VIP内容
专知会员服务
32+阅读 · 2021年3月7日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员