端到端语音翻译的课程预训练

Curriculum Pre-training for End-to-End Speech Translation

链接:https://arxiv.org/abs/2004.10093

图1:课程预训练方法与其他预训练方法对比

端到端语音翻译(Speech Translation, ST)利用一个神经网络模型将一段源语言语音直接翻译为目标语言的文本。这个任务对模型编码器带来很大负担,因为它需要同时学习语音转录(transcription)、语义理解(understanding)和跨语言语义匹配(mapping)。已有工作利用语音识别(Automatic Speech Recognition, ASR)数据上进行预训练以获得更强大的编码器。然而,这种预训练方式无法学习翻译任务所需要的语义知识。受到人类学习过程的启发,本文提出了一种课程预训练(Curriculum Pretraining)的方式。如图1所示,在学习语音翻译之前,模型首先学习一门基础课程用于语音转录,随后学习两门用于语义理解和单词映射的高级课程,这些课程的难度逐渐增加。

图2:训练过程

如图2所示,训练过程分为三个阶段:首先利用语音识别任务作为基础课程;然后在高级课程中,我们提出了两种任务,分别命名为 Frame-based Masked Language Model (FMLM) 和 Frame-based Bilingual Lexicon Translation (FBLT)。在 FMLM 任务中,首先将源语言语音和单词做对齐,然后随机遮蔽部分单词对应的语音片段,并令模型预测正确的单词。在 FBLT 任务中,我们使模型预测每个语音片段所对应的目标语言单词。这两个任务在编码器的不同层进行;最终,将模型在语音翻译数据上进行微调。实验表明,课程预训练的方法在英德和英法语音翻译数据集上都取得了明显改进。

成为VIP会员查看完整内容
5

相关内容

通过计算机进行不同语言之间的直接语音翻译,辅助不同语言背景的人们进行沟通已经成为世界各国研究的重点。 和一般的文本翻译不同,语音翻译需要把语音识别、机器翻译和语音合成三大技术进行集成,具有很大的挑战性。
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
超越BERT、GPT,微软提出通用预训练模型MASS
机器之心
4+阅读 · 2019年5月10日
BERT-预训练的强大
微信AI
60+阅读 · 2019年3月7日
通过预训练提升语言理解
开放知识图谱
4+阅读 · 2018年11月21日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
Arxiv
13+阅读 · 2020年4月12日
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
Arxiv
3+阅读 · 2019年9月5日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Paraphrase Generation with Deep Reinforcement Learning
VIP会员
相关论文
微信扫码咨询专知VIP会员