一种循环神经网络,对应输入序列。编码器的作用是把一个不定长的输入序列转化成一个定长的背景向量cc。该背景向量包含了输入序列的信息。常用的编码器是循环神经网络。编码器的输入既可以是正向传递,也可以是反向传递。

VIP内容

题目: Multiresolution and Multimodal Speech Recognition with Transformers

摘要:

本文提出了一种基于transformers的语音自动识别系统。我们特别关注场景上下文所提供的视觉信息,以集成ASR。我们在transformers的编码器层提取音频特征的表示,并使用一个额外的跨模态多头注意层融合视频特征。此外,我们为多分辨率ASR合并了一个多任务训练标准,在那里我们训练模型来生成字符和子单词级别的转录。

在How2数据集上的实验结果表明,与子单词预测模型相比,多分辨率训练可以加快约50%的收敛速度,并相对提高高达18%的单词错误率(WER)性能。此外,与纯音频模型相比,集成视觉信息可以提高性能,相对提高3.76%。其成果可与最先进的聆听、聆听和基于拼写的体系结构相媲美。

成为VIP会员查看完整内容
0
7
Top