We combine recent advancements in end-to-end speech recognition to non-autoregressive automatic speech recognition. We push the limits of non-autoregressive state-of-the-art results for multiple datasets: LibriSpeech, Fisher+Switchboard and Wall Street Journal. Key to our recipe, we leverage CTC on giant Conformer neural network architectures with SpecAugment and wav2vec2 pre-training. We achieve 1.8%/3.6% WER on LibriSpeech test/test-other sets, 5.1%/9.8% WER on Switchboard, and 3.4% on the Wall Street Journal, all without a language model.


翻译:我们把端到端语音识别的最新进展与非偏向自动语音识别结合起来。 我们推出多个数据集的非偏向状态结果限制: LibriSpeech, Fisher+Switchboard 和 Wall Street Journal。 我们的食谱关键是,我们利用CTC 和 SpecAugment 和 wav2vec2 培训前的巨型神经网络结构。 我们在LibriSpeech 测试/其他数据集上实现了1.8%/3.6%的WER,在交换机上实现了5.1%/9.8%的WER,在华尔街日报上实现了3.4%的WER, 全部没有语言模式。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
59+阅读 · 2020年3月19日
专知会员服务
112+阅读 · 2019年12月24日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
胶囊网络资源汇总
论智
7+阅读 · 2018年3月10日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
干货 | 深度学习论文汇总
AI科技评论
4+阅读 · 2018年1月1日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
专知会员服务
59+阅读 · 2020年3月19日
专知会员服务
112+阅读 · 2019年12月24日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
胶囊网络资源汇总
论智
7+阅读 · 2018年3月10日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
干货 | 深度学习论文汇总
AI科技评论
4+阅读 · 2018年1月1日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员