Interspeech 2019 | 基于多模态对齐的语音情感识别

2019 年 9 月 21 日 AI科技评论

本文来自公众号滴滴科技合作,AI科技评论获授权转载,如需转载请联系原公众号。

Interspeech 2019


Interspeech 2019现场


作者 | 滴滴AI Labs
编辑 | 唐里


语音领域顶级学术会议 Interspeech于2019年9月15-19日在奥地利格拉茨举行。

在 Interspeech 会议期间,来自全球学术界和产业界的研究人员齐聚一堂,讨论语音领域的新技术,包括语音合成、语音识别、说话人识别等细分领域。在会议上展示的研究成果代表着语音相关领域的最新研究水平和未来的发展趋势。

本次会议共吸引2180篇论文投递,其中75%来自学界,22%来自工业界。


论文地址:https://arxiv.org/abs/1909.05645

语音情感识别是一个非常具有挑战性的问题,因为人们总是以微妙和复杂的方式传达情感。对于语音情感识别,当前的方法主要包括:1)直接通过语音信号特征;2)通过语音识别的文本特征;3)融合音频-文本的多模态特征。当前的方法忽视了音频和识别文本在时序空间的交互。
在本篇论文中,滴滴提出基于多模态对齐的语音情感识别的模型。在语音情感识别的公开数据集IEMOCAP取得了当前最好的性能。
基于多模态的语音情感识别的方法可以用于智能客服(如客服质检,机器人客服互动式语音应答),其中机器人客服质检主要是根据语音和识别文本对客服和用户的情绪进行分析,辅助质检,机器人客服互动式语音应答主要是根据语音和识别文本对进线用户的情绪进行分析,合理应答。

模型



本文提出的多模态对齐的语音情感识别的模型,主要包括语音的编码器模块,语音识别文本的编码器模块,以及基于注意力机制的多模态融合网络模块,具体的模型结构图如上图。


语音的编码器模块

我们首先获取语音的低维度的基于帧的MFCC特征,然后用BiLSTM对音频基于帧进行高维特征表示。


语音识别文本的编码器模块

我们首先预训练(Pretraining)来获取单词的词向量(Word Embedding)表示,然后用BiLSTM对ASR识别文本基于单词进行高维特征表示。


基于注意力机制的多模态融合网络模块

我们利用Attention机制动态学出每个单词文本特征的权重和每帧语音的特征,然后加权求和得到每个单词的语音对齐的特征,接着我们将对齐的特征和文本的特征拼接并用BiLSTM来做特征的融合,最后我们用最大池化层和全连接层进行情感分类。


实验


论文在语音情感识别的公开数据集IEMOCAP评测了模型。IEMOCAP数据集是由10个演员录制,对话主要包括10个情感。论文与之前的方法保持一致使用了主要的4个情感(生气,开心,中性,伤心)。


在实验中,论文选择 1)直接通过语音信号特征 2)通过语音识别的文本特征 3)融合音频-文本的多模态特征这三类方法的对比,通过上图(Table 1),可以看出本论文的模型在加权精确度(WA)和非加权精确度(UA评价指标都有显著提高,证明了学习音频和文本对齐信息的多模学习方法的有效性。


此外,论文也分析了识别结果和对齐方式的影响,通过Table 2(上图),可以看出如果使用数据集提供的正确的文本,相比识别文本能有一定的提升。基于attention的动态的基于情感的对齐信息,相比基于ASR的对齐方式更为有效。


1. Facebook 自然语言处理新突破:新模型能力赶超人类 & 超难 NLP 新基准 

2. 巴赫涂鸦创作者 Anna Huang 现身上海,倾情讲解「音乐生成」两大算法 

3. 一份完全解读:是什么使神经网络变成图神经网络?  

点击阅读原文,查看更多语音语义资源

登录查看更多
23

相关内容

INTERSPEECH是关于口语处理科学和技术的全球最大、最全面的会议。INTERSPEECH会议强调跨学科的方法,涉及语音科学和技术的各个方面,从基础理论到高级应用。 官网地址:http://dblp.uni-trier.de/db/conf/interspeech/index.html
SFFAI分享 | 黄健:语音情感识别【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2019年6月11日
SFFAI 31 报名通知 | 情感语音识别与合成
人工智能前沿讲习班
17+阅读 · 2019年5月30日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
【深度解读】陶建华:深度神经网络与语音
中国科学院自动化研究所
6+阅读 · 2018年7月9日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
独家 | 一文读懂语音识别(附学习资源)
数据派THU
8+阅读 · 2017年7月20日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
相关资讯
SFFAI分享 | 黄健:语音情感识别【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2019年6月11日
SFFAI 31 报名通知 | 情感语音识别与合成
人工智能前沿讲习班
17+阅读 · 2019年5月30日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
【深度解读】陶建华:深度神经网络与语音
中国科学院自动化研究所
6+阅读 · 2018年7月9日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
独家 | 一文读懂语音识别(附学习资源)
数据派THU
8+阅读 · 2017年7月20日
Top
微信扫码咨询专知VIP会员