Performance degradation of an Automatic Speech Recognition (ASR) system is commonly observed when the test acoustic condition is different from training. Hence, it is essential to make ASR systems robust against various environmental distortions, such as background noises and reverberations. In a multi-stream paradigm, improving robustness takes account of handling a variety of unseen single-stream conditions and inter-stream dynamics. Previously, a practical two-stage training strategy was proposed within multi-stream end-to-end ASR, where Stage-2 formulates the multi-stream model with features from Stage-1 Universal Feature Extractor (UFE). In this paper, as an extension, we introduce a two-stage augmentation scheme focusing on mismatch scenarios: Stage-1 Augmentation aims to address single-stream input varieties with data augmentation techniques; Stage-2 Time Masking applies temporal masks on UFE features of randomly selected streams to simulate diverse stream combinations. During inference, we also present adaptive Connectionist Temporal Classification (CTC) fusion with the help of hierarchical attention mechanisms. Experiments have been conducted on two datasets, DIRHA and AMI, as a multi-stream scenario. Compared with the previous training strategy, substantial improvements are reported with relative word error rate reductions of 29.7-59.3% across several unseen stream combinations.


翻译:在测试声学条件不同于培训时,通常会观察到自动语音识别系统的性能退化,因此,必须使自动语音识别系统在各种环境扭曲(如背景噪音和回响)方面强大起来,防止背景噪音和反响等各种环境扭曲。在多流范式中,提高稳健性考虑到处理各种看不见的单流条件和流间动态。以前,在多流终端至终端ASR内提出了一个实用的两阶段培训战略,第二阶段以第1阶段通用地物提取器(UFE)的特征制定多流模式。在本文件中,作为扩展,我们推出了一个以不匹配情景为重点的两阶段增强计划:第1阶段强化计划旨在用数据增强技术处理单流输入品种;第2阶段对随机选定的流流的UFE特性应用时间面罩模拟不同的流组合。在推断中,我们还提出了适应性连接性温度分类(CTC)与等级关注机制的帮助。在两个数据集(DIRHA和AMI)上进行了实验,作为扩展,重点是:第1阶段扩大计划旨在用数据放大技术处理单流的单流品种;第2至5级组合。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【AAAI2021】记忆门控循环网络
专知会员服务
47+阅读 · 2020年12月28日
专知会员服务
47+阅读 · 2020年12月4日
专知会员服务
59+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018
泡泡机器人SLAM
29+阅读 · 2018年10月28日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Teacher-Student Training for Robust Tacotron-based TTS
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Arxiv
6+阅读 · 2019年4月4日
VIP会员
相关VIP内容
【AAAI2021】记忆门控循环网络
专知会员服务
47+阅读 · 2020年12月28日
专知会员服务
47+阅读 · 2020年12月4日
专知会员服务
59+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018
泡泡机器人SLAM
29+阅读 · 2018年10月28日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员