SFFAI分享 | 黄健:语音情感识别【附PPT与视频资料】

2019 年 6 月 11 日 人工智能前沿讲习班

关注文章公众号

回复"SFFAI31"获取PPT资料

视频资料可点击下方阅读原文在线观看


作者介绍


黄健,中国科学院自动化研究所模式识别国家重点实验室15级硕博生。目前研究兴趣为多模态情感识别。博士期间在ACMMM,ICASSP,Interspeech等会议上发表多篇论文。曾获中国科学院大学三好学生称号。


导读


语音情感识别能够使人机交互更加和谐自然,近来收到了越来越多的关注。语音情感识别系统主要分为语音情感特征提取和情感建模两个重要的部分。传统的语音情感特征主要是基于手工特征包括韵律、频谱和音质三种,传统的情感模型主要是基于SVM和HMM等方法。随着深度学习的发展,深度神经网络也被成功地应用在了语音情感识别领域,主要是利用神经网络提取更为鲁棒有效地情感特征和基于时序关系建立情感模型,而且其他领域的模型也有效地提升了语音情感识别的性能。


Introduction


语音情感识别是对音频进行情感分类。本文从语音情感识别的情感特征提取和情感模型构建两个方面进行说明,并介绍一些经典的方法和模型。


正文


情感是受外界刺激而产生的主观精神状态,往往伴随着复杂的心理和生理变化(皮电活动增加,心跳加快),并且会对自身的决策和行为(表情、言语和手势等行为)产生影响。因此,情感识别就是依据外在表现地生理信号和行为反应去量化、描述和识别人类情绪。在感知用户情绪的基础上,情感交互系统才能够尽可能像人一样适应用户的情绪并通过多种表达方式影响用户的情绪,有利于提高自然的人机情感交互水平。不同的研究者对于情感有不同的分类,但最常见的包括“高兴”、“伤心”、“生气”和“中性”这几类。情感识别系统主要包括情感特征提取和情感模型构建两个方面,情感识别的研究也是根据这两个方面展开的。

传统的语音情感特征包括韵律(基频、能量等)、频谱(MFCC、LPC等)和音质(jitter、shimmer等)三方面,有研究者专门不同的声学特征对于情感的影响,总结出了许多情感特征集如eGemaps。近来深度学习的发展,许多深度网络方法被用来提取鲁棒的语音情感特征。最典型的是利用无监督学习自编码器通过重建损失来获得有效的特征,并且还能降低特征维度。另外,降噪自编码器通过在输入数据加入一些噪声获得了更为鲁棒的特征。然而,这样提取的特征无法保证都是与情感相关的,因此有研究者将自编码器的中间隐含层部分分为两个部分,并假设一个是情感相关的另一个是情感无关的,重建输入是依据这两个部分的加权和。这样学习的特征可以去除掉一些情感无关的部分。近来,有研究者在此基础上让这两个部分正交以保证更好地区分情感部分和非情感部分,获得了更好的效果。此外,有研究者利用区分性训练使相同情感类别的距离更近,不同情感类别的距离更远已获得更具有可分性的情感特征,具体包括对比损失和三元损失等。

传统的情感模型如SVM能获得较好的性能,但是由于未能考虑到上下文关系,效果未能达到最优。LSTM模型能有对长时时序进行建模,目前是情感识别中使用的最多的模型。其它的一些能考虑时序的模型也在情感识别中获得了较好的性能。针对情感数据较少的特性,有研究者利用半监督学习组合无监督学习和监督学习的优点,能够融合无标签数据,提升在较小数据集上的性能。有研究利用CTC模型将情感识别的多对一问题转换成序列问题,假设一个空状态,并设定一段时长的情感状态是所标注的情感状态和空状态以马尔科夫链的形式存在,以CTC模型进行训练,测试时首先去除空状态,选择预测类别中最多的一类作为最终的预测类别。

情感识别主要包括情感特征提取和情感建模两个部分。随着深度学习的发展,这两个部分分别都被深度神经网络所替代以提取鲁棒可分的情感特征和时序的情感识别模型,并且也建立了端到端的情感识别模型,许多其它领域的模型也成功地应用在了情感识别方向。



SFFAI招募召集人!

现代科学技术高度社会化,在科学理论与技术方法上更加趋向综合与统一,为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。

SFFAI自2018年9月16日举办第一期线下交流,每周一期,风雨无阻,截至目前已举办32期线下交流活动,共有62位讲者分享了他们的真知灼见,来自100多家单位的同学参与了现场交流,通过线上推文、网络直播等形式,50000+人次参与了SFFAI的活动。SFFAI已经成为人工智能学生交流的第一品牌,有一群志同道合的研究生Core-Member伙伴,有一批乐于分享的SPEAKER伙伴,还有许多认可活动价值、多次报名参加现场交流的观众。

我们邀请你一起来组织SFFAI主题论坛,加入SFFAI召集人团队。每个召集人负责1-2期SFFAI主题论坛的组织筹划,我们有一个SFFAI-CORE团队来支持你。一个人付出力所能及,创造一个一己之力不可及的自由丰盛。你带着你的思想,带着你的个性,来组织你感兴趣的SFFAI主题论坛。

当召集人有什么好处?

谁可以当召集人?

怎样才能成为召集人?

为什么要当召集人?

了解我们,加入我们,请点击下方海报!





历史文章推荐:



录播视频,请点击下方
阅读原文
观看
↓↓

若您觉得此篇推文不错,麻烦点点在看↓↓

登录查看更多
30

相关内容

计算机对从传感器采集来的信号进行分析和处理,从而得出对方(人)正处在的情感状态,这种行为叫做情感识别。
最新《生成式对抗网络》简介,25页ppt
专知会员服务
168+阅读 · 2020年6月28日
少标签数据学习,54页ppt
专知会员服务
194+阅读 · 2020年5月22日
中科大-人工智能方向专业课程2020《脑与认知科学导论》
清华大学张敏老师,个性化推荐的基础与趋势,145页ppt
专知会员服务
85+阅读 · 2019年11月27日
SFFAI分享 | 常建龙:基于关系的深度学习【附PPT与视频资料】
人工智能前沿讲习班
6+阅读 · 2019年7月1日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
SFFAI 31 报名通知 | 情感语音识别与合成
人工智能前沿讲习班
17+阅读 · 2019年5月30日
SFFAI分享 | 王少楠:博士生活杂谈【附PPT与视频资料】
人工智能前沿讲习班
24+阅读 · 2019年3月24日
SFFAI分享 | 张士峰:经验分享之我的科研历程【附PPT与视频资料】
人工智能前沿讲习班
85+阅读 · 2019年3月23日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
增强学习 分享ppt
机器学习读书会
7+阅读 · 2017年1月7日
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
Arxiv
5+阅读 · 2018年5月10日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关资讯
SFFAI分享 | 常建龙:基于关系的深度学习【附PPT与视频资料】
人工智能前沿讲习班
6+阅读 · 2019年7月1日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
SFFAI 31 报名通知 | 情感语音识别与合成
人工智能前沿讲习班
17+阅读 · 2019年5月30日
SFFAI分享 | 王少楠:博士生活杂谈【附PPT与视频资料】
人工智能前沿讲习班
24+阅读 · 2019年3月24日
SFFAI分享 | 张士峰:经验分享之我的科研历程【附PPT与视频资料】
人工智能前沿讲习班
85+阅读 · 2019年3月23日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
增强学习 分享ppt
机器学习读书会
7+阅读 · 2017年1月7日
Top
微信扫码咨询专知VIP会员