Self-supervised learning methods such as wav2vec 2.0 have shown promising results in learning speech representations from unlabelled and untranscribed speech data that are useful for speech recognition. Since these representations are learned without any task-specific supervision, they can also be useful for other voice-activated tasks like speaker verification, keyword spotting, emotion classification etc. In our work, we propose a general purpose framework for adapting a pre-trained wav2vec 2.0 model for different voice-activated tasks. We develop downstream network architectures that operate on the contextualized speech representations of wav2vec 2.0 to adapt the representations for solving a given task. Finally, we extend our framework to perform multi-task learning by jointly optimizing the network parameters on multiple voice activated tasks using a shared transformer backbone. Both of our single and multi-task frameworks achieve state-of-the-art results in speaker verification and keyword spotting benchmarks. Our best performing models achieve 1.98% and 3.15% EER on VoxCeleb1 test set when trained on VoxCeleb2 and VoxCeleb1 respectively, and 98.23% accuracy on Google Speech Commands v1.0 keyword spotting dataset.


翻译:诸如 wav2vec 2. 0 等自我监督的学习方法,在从无标签和未注明的语音数据中学习有助于语音识别的未贴标签和未贴标签的语音数据中,在学习语音演示方面已经显示出令人乐观的成果。由于这些演示是在没有任何具体任务监督的情况下学习的,因此这些演示也可以用于其他语音激活任务,如语音校验、关键字识别、情绪分类等。 在我们的工作中,我们提出了一个通用目的框架,用于为不同语音激活任务修改预先训练的 wav2vec 2.0 模式。我们开发了下游网络结构,在 wav2vec 2. 0 的背景化语音演示中运作,以调整表达方式解决特定任务。最后,我们扩展了框架,以开展多任务学习,通过共同优化多个语音激活任务的网络参数,使用共用变压器主干网。我们单一和多任务框架在语音校验和关键字定位基准中都取得了最新结果。我们的最佳执行模式在VoxCeleb2 和 VoxCeleb1 测试组上分别达到1. 98%和3.15 % EER 测试设置时,在GoogleSO shold 命令 v.1.0% custainSet

0
下载
关闭预览

相关内容

【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
30+阅读 · 2020年4月23日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
深度互学习-Deep Mutual Learning:三人行必有我师
深度学习大讲堂
7+阅读 · 2019年6月27日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Arxiv
7+阅读 · 2018年5月23日
Arxiv
5+阅读 · 2017年7月25日
VIP会员
相关VIP内容
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
30+阅读 · 2020年4月23日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
深度互学习-Deep Mutual Learning:三人行必有我师
深度学习大讲堂
7+阅读 · 2019年6月27日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Top
微信扫码咨询专知VIP会员