Typical ASR systems segment the input audio into utterances using purely acoustic information, which may not resemble the sentence-like units that are expected by conventional machine translation (MT) systems for Spoken Language Translation. In this work, we propose a model for correcting the acoustic segmentation of ASR models for low-resource languages to improve performance on downstream tasks. We propose the use of subtitles as a proxy dataset for correcting ASR acoustic segmentation, creating synthetic acoustic utterances by modeling common error modes. We train a neural tagging model for correcting ASR acoustic segmentation and show that it improves downstream performance on MT and audio-document cross-language information retrieval (CLIR).


翻译:典型的ASR系统使用纯声学信息,将音频输入语音中,这也许与传统机器翻译系统预期的口语翻译的类似句号单元不同,在这项工作中,我们提出了一个模型,用于纠正低资源语言的ASR模式的声学分解,以提高下游任务的业绩。我们建议使用字幕作为代用数据集,用于纠正ASR声学分解,通过模拟常见错误模式创建合成声学话。我们为纠正ASR声学分解开发了一个神经标记模型,并表明该模型提高了MT和声文件跨语言信息检索的下游性能。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【EMNLP2020最佳论文】无声语音的数字化发声
专知会员服务
11+阅读 · 2020年11月20日
【华盛顿大学】预训练语言模型中的潜在名称构件
专知会员服务
3+阅读 · 2020年4月6日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
已删除
将门创投
3+阅读 · 2019年6月12日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员