题目: Unsupervised pre-training for sequence to sequence speech recognition

摘要:

本文提出了一种新的编码-解码器序列到序列预训练模型(seq2seq)。我们的前训练方法分为两个阶段,分别是声学前训练和语言前训练。在声学预训练阶段,我们使用大量的语音来预训练编码器,通过预测掩蔽语音特征块及其上下文。在语言前训练阶段,我们使用单说话文本到语音(TTS)系统从大量的文本中生成合成语音,并使用合成的成对数据对译码器进行预训练。这种两阶段预训练方法将丰富的声学和语言知识整合到seq2seq模型中,有利于后续的自动语音识别(ASR)任务。在AISHELL-2数据集上完成无监督的预训练,我们将预训练模型应用于AISHELL-1和香港科技大学的多重配对数据比率。我们的相对错误率由AISHELL-1的38.24%降至7.88%,由香港科技大学的12.00%降至1.20%。此外,将我们的预训练模型应用到带有CALLHOME数据集的跨语言案例中。对于CALLHOME数据集中的所有六种语言,我们的预训练方法使模型始终优于基线。

作者:

徐波,研究员,1988年毕业于浙江大学,现任中国科学院自动化所所长 ,研究领域包括:多语言语音识别与机器翻译、多媒体网络内容智能处理、互动沉浸式3D互联网等。

成为VIP会员查看完整内容
0
15

相关内容

一种循环神经网络,对应输入序列。编码器的作用是把一个不定长的输入序列转化成一个定长的背景向量cc。该背景向量包含了输入序列的信息。常用的编码器是循环神经网络。编码器的输入既可以是正向传递,也可以是反向传递。

题目: Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

摘要: 无监督学习的表示仍然是机器学习中的一个开放问题,尤其是语音信号的挑战,语音信号的特征通常是长序列和复杂的层次结构。然而,最近的一些研究表明,通过使用一种自监督的编码器-鉴别器方法来获得有用的语音表示是可能的。本文提出了一种改进的自监督方法,即一个神经编码器由多个工作者共同完成不同的自监督任务。不同任务之间所需的一致意见自然会给编码人员带来有意义的约束,有助于发现一般的表示,并将学习浅显表示的风险降至最低。实验表明,该方法可以学习可迁移的、具有鲁棒性的、与问题无关的特征,这些特征从语音信号中传递相关信息,如说话人身份、音素,甚至更高层次的特征,如情感线索。此外,大量的设计选择使编码器易于输出,方便其直接使用或适应不同的问题。

成为VIP会员查看完整内容
0
13

题目: Multiresolution and Multimodal Speech Recognition with Transformers

摘要:

本文提出了一种基于transformers的语音自动识别系统。我们特别关注场景上下文所提供的视觉信息,以集成ASR。我们在transformers的编码器层提取音频特征的表示,并使用一个额外的跨模态多头注意层融合视频特征。此外,我们为多分辨率ASR合并了一个多任务训练标准,在那里我们训练模型来生成字符和子单词级别的转录。

在How2数据集上的实验结果表明,与子单词预测模型相比,多分辨率训练可以加快约50%的收敛速度,并相对提高高达18%的单词错误率(WER)性能。此外,与纯音频模型相比,集成视觉信息可以提高性能,相对提高3.76%。其成果可与最先进的聆听、聆听和基于拼写的体系结构相媲美。

成为VIP会员查看完整内容
0
7

题目: Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

摘要: 语言模型预先从各种来源的文本训练,形成了今天的自然语言处理的基础。鉴于这些广泛覆盖模型的成功,我们研究了将一个预训练的模型裁剪到目标任务的领域是否仍然有帮助。我们提出了一项涉及四个领域(生物医学和计算机科学出版物、新闻和评论)和八个分类任务的研究,表明在高资源和低资源环境下,领域内的第二阶段训练(领域自适应训练)可提高性能。此外,适应任务的未标记数据(任务自适应预训练)甚至可以提高域自适应预训练后的性能。最后,我们证明使用简单的数据选择策略来适应扩充的任务语料库是一种有效的替代方法,特别是在域自适应预训练资源可能不可用的情况下。总的来说,我们一致发现,多相适应性训练在任务效果方面提供了很大的提高。

成为VIP会员查看完整内容
0
27

题目: Data Augmentation using Pre-trained Transformer Models

简介:

基于语言模型的预训练模型,如BERT,在不同的NLP任务中提供了显著的收益。在本文中,我们研究了不同类型的基于自回归模型(GPT-2)、自编码器模型(BERT)和seq2seq模型(BART)等用于条件数据增强的预训练变压器模型。我们表明,将类标签前置到文本序列提供了一种简单而有效的方法来设置预训练模型的条件,以便进行数据扩充。在三个分类基准上,预先训练的Seq2Seq模型优于其他模型。此外,我们还探讨了不同的基于预训练模型的数据扩充在数据多样性方面是如何不同的,以及这些方法如何很好地保存类标签信息。

成为VIP会员查看完整内容
0
21

题目: IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

摘要: 本文介绍了一种新的用于图像-文本联合嵌入的视觉语言预训练模型图像BERT。我们的模型是一个基于Transformer的模型,它以不同的模态作为输入,对它们之间的关系进行建模。该模型同时进行了四项任务的预训练:掩蔽语言建模(MLM)、掩蔽对象分类(MOC)、掩蔽区域特征回归(MRFR)和图像文本匹配(ITM)。为了进一步提高预训练的质量,我们从Web上收集了一个大规模的弱监督图像-文本(LAIT)数据集。我们首先在这个数据集上对模型进行预训练,然后对概念字幕和SBU字幕进行第二阶段的预训练。实验结果表明,多阶段预训练策略优于单阶段预训练策略。我们还在图像检索和文本检索任务上对预先训练好的ImageBERT模型进行了调优和评估,并在MSCOCO和Flickr30k数据集上获得了最好的效果。

成为VIP会员查看完整内容
0
18

论文题目: Meta Learning for End-to-End Low-Resource Speech Recognition

摘要: 在本文中,我们提出将元学习方法应用于低资源的自动语音识别(ASR)。我们将不同语言的ASR表示为不同的任务,并通过最近提出的模型无关元学习算法(MAML),从许多预训练语言中学习初始化参数,以实现对未知目标语言的快速适应。我们以六种语言为训练前任务,四种语言为目标任务,对提出的方法进行了评估。初步结果表明,MetaASR方法在训练前不同语言组合的所有目标语言上显著优于目前最先进的多任务训练前方法。此外,由于MAML的模型无关性,本文也为元学习在更多语音相关应用中的应用开辟了新的研究方向。

论文作者: Jui-Yang Hsu, Yuan-Jui Chen, Hung-yi Lee

李宏毅(Hung-yi Lee)目前任台湾大学电机工程学系和电机资讯学院的助理教授,他曾于 2012 年获得台湾大学博士学位,并于 2013 年赴麻省理工学院(MIT)计算机科学和人工智能实验室(CSAIL)做访问学者。他的研究方向主要是机器学习(深度学习)和语音识别。

成为VIP会员查看完整内容
0
32

This paper investigates the impact of word-based RNN language models (RNN-LMs) on the performance of end-to-end automatic speech recognition (ASR). In our prior work, we have proposed a multi-level LM, in which character-based and word-based RNN-LMs are combined in hybrid CTC/attention-based ASR. Although this multi-level approach achieves significant error reduction in the Wall Street Journal (WSJ) task, two different LMs need to be trained and used for decoding, which increase the computational cost and memory usage. In this paper, we further propose a novel word-based RNN-LM, which allows us to decode with only the word-based LM, where it provides look-ahead word probabilities to predict next characters instead of the character-based LM, leading competitive accuracy with less computation compared to the multi-level LM. We demonstrate the efficacy of the word-based RNN-LMs using a larger corpus, LibriSpeech, in addition to WSJ we used in the prior work. Furthermore, we show that the proposed model achieves 5.1 %WER for WSJ Eval'92 test set when the vocabulary size is increased, which is the best WER reported for end-to-end ASR systems on this benchmark.

0
3
下载
预览

Attention-based encoder-decoder architectures such as Listen, Attend, and Spell (LAS), subsume the acoustic, pronunciation and language model components of a traditional automatic speech recognition (ASR) system into a single neural network. In our previous work, we have shown that such architectures are comparable to state-of-the-art ASR systems on dictation tasks, but it was not clear if such architectures would be practical for more challenging tasks such as voice search. In this work, we explore a variety of structural and optimization improvements to our LAS model which significantly improve performance. On the structural side, we show that word piece models can be used instead of graphemes. We introduce a multi-head attention architecture, which offers improvements over the commonly-used single-head attention. On the optimization side, we explore techniques such as synchronous training, scheduled sampling, label smoothing, and minimum word error rate optimization, which are all shown to improve accuracy. We present results with a unidirectional LSTM encoder for streaming recognition. On a 12,500 hour voice search task, we find that the proposed changes improve the WER of the LAS system from 9.2% to 5.6%, while the best conventional system achieve 6.7% WER. We also test both models on a dictation dataset, and our model provide 4.1% WER while the conventional system provides 5% WER.

0
6
下载
预览
小贴士
相关VIP内容
相关论文
Speech2Action: Cross-modal Supervision for Action Recognition
Arsha Nagrani,Chen Sun,David Ross,Rahul Sukthankar,Cordelia Schmid,Andrew Zisserman
6+阅读 · 3月30日
Varun Kumar,Ashutosh Choudhary,Eunah Cho
5+阅读 · 3月4日
Xuankai Chang,Wangyou Zhang,Yanmin Qian,Jonathan Le Roux,Shinji Watanabe
7+阅读 · 2月13日
Meta Learning for End-to-End Low-Resource Speech Recognition
Jui-Yang Hsu,Yuan-Jui Chen,Hung-yi Lee
11+阅读 · 2019年10月26日
A Comparative Study on Transformer vs RNN in Speech Applications
Shigeki Karita,Nanxin Chen,Tomoki Hayashi,Takaaki Hori,Hirofumi Inaguma,Ziyan Jiang,Masao Someki,Nelson Enrique Yalta Soplin,Ryuichi Yamamoto,Xiaofei Wang,Shinji Watanabe,Takenori Yoshimura,Wangyou Zhang
3+阅读 · 2019年9月13日
SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition
Daniel S. Park,William Chan,Yu Zhang,Chung-Cheng Chiu,Barret Zoph,Ekin D. Cubuk,Quoc V. Le
4+阅读 · 2019年4月18日
End-to-end Speech Recognition with Word-based RNN Language Models
Takaaki Hori,Jaejin Cho,Shinji Watanabe
3+阅读 · 2018年8月8日
Neil Zeghidour,Nicolas Usunier,Gabriel Synnaeve,Ronan Collobert,Emmanuel Dupoux
3+阅读 · 2018年6月19日
Łukasz Kaiser,Samy Bengio
6+阅读 · 2018年1月29日
Chung-Cheng Chiu,Tara N. Sainath,Yonghui Wu,Rohit Prabhavalkar,Patrick Nguyen,Zhifeng Chen,Anjuli Kannan,Ron J. Weiss,Kanishka Rao,Ekaterina Gonina,Navdeep Jaitly,Bo Li,Jan Chorowski,Michiel Bacchiani
6+阅读 · 2018年1月18日
Top