In this paper, we propose TitaNet, a novel neural network architecture for extracting speaker representations. We employ 1D depth-wise separable convolutions with Squeeze-and-Excitation (SE) layers with global context followed by channel attention based statistics pooling layer to map variable-length utterances to a fixed-length embedding (t-vector). TitaNet is a scalable architecture and achieves state-of-the-art performance on speaker verification task with an equal error rate (EER) of 0.68% on the VoxCeleb1 trial file and also on speaker diarization tasks with diarization error rate (DER) of 1.73% on AMI-MixHeadset, 1.99% on AMI-Lapel and 1.11% on CH109. Furthermore, we investigate various sizes of TitaNet and present a light TitaNet-S model with only 6M parameters that achieve near state-of-the-art results in diarization tasks.


翻译:在本文中,我们提出TitaNet,这是一个用于提取语音演示的新型神经网络结构。我们使用与全球背景的1D 深度分离的与Squeze-Expreview(SE)层相分离的深度混杂,然后是基于频道的注意统计集合层,以绘制固定长度嵌入(t-victor)的可变长语句。TitaNet是一个可缩放的架构,在语音核实任务上实现了最先进的性能表现,VoxCeleb1试验文件的出错率为0.68%(EER),以及AMI-Mix Heardset上1.73%、AMI-Lapel1.99%和CH109上1.11%的分辨分辨分辨分解率。此外,我们调查了TitaNet的不同大小,并提出了一个光 TitaNet-S模型,只有6M参数,在diariz化任务上接近最新结果。

0
下载
关闭预览

相关内容

专知会员服务
61+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
PRL导读-2018年120卷15期
中科院物理所
4+阅读 · 2018年4月23日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文笔记 | VAIN: Attentional Multi-agent Predictive Modeling
科技创新与创业
4+阅读 · 2017年12月10日
BranchOut: Regularization for Online Ensemble Tracking with CNN
统计学习与视觉计算组
9+阅读 · 2017年10月7日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
27+阅读 · 2018年4月12日
VIP会员
相关VIP内容
专知会员服务
61+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
PRL导读-2018年120卷15期
中科院物理所
4+阅读 · 2018年4月23日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文笔记 | VAIN: Attentional Multi-agent Predictive Modeling
科技创新与创业
4+阅读 · 2017年12月10日
BranchOut: Regularization for Online Ensemble Tracking with CNN
统计学习与视觉计算组
9+阅读 · 2017年10月7日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Top
微信扫码咨询专知VIP会员