ACM MM 2021 | 面向多模态情绪识别的双流异质图递归神经网络

2021 年 11 月 7 日 PaperWeekly



本文介绍一篇于 ACM MM 2021 上发表,备受关注的 Oral 论文《HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network for Multi-modal Emotion Recognition》,该论文以多模态情感数据的高精度分类为研究目标,提出了一种双流异质图递归神经网络进行多模态情绪数据的分类。

尽管现有方法能够达到较高的分类表现,但是如何充分利用多模态生理时间序列的时-频-空域特征互补性、异质性和相关性进行情感识别仍然具有挑战。该论文提出了一种新颖的异质图神经网络 HetEmotionNet,在统一的框架下同时建模了多模态数据的特征互补性、相关性和异质性。HetEmotionNet 在两个真实世界数据中与现有的 SOTA 模型相比较实现了最佳的性能。


原文地址:

https://arxiv.org/abs/2108.03354

论文源码

https://github.com/ziyujia/HetEmotionNet

作者主页:

https://ziyujia.github.io/

PPT文件

https://ziyujia.github.io/slides/HetEmotionNet_slides.pdf




研究背景


情绪是由思维感觉和行为表现组成的生理和心理的状态。提到情绪识别,人们的第一反应是通过图像、文本、声音等形式进行识别,一般不会想到利用生理信号。尽管图像、文本、声音数据比较容易收集,也能够达到不错的效果,但人的面部表情和声音容易被伪装、掩盖,不一定能反映真实情感。基于生理信号的情绪识别可以避免此类情况,生理信号是人生理情况的客观反应,不容易被伪装。此外,多模态的生理信号也是未来发展的趋势。



研究动机


基于生理信号的情绪识别在情感计算中起着重要的作用,但现有的工作仍存在下面几个问题:

1. 如何有效的利用时频空域信息的互补性。 生理信号空间域中的时域信息和频域信息通常具有不同的激活程度。例如,图 1 显示了不同情绪状态下 EEG 信号在空间域中时域和频域特征的差异。例如,在时空域中,时域信息的激活程度直接反映了大脑的活动。高激活度通常与积极情绪有关,低激活度通常与消极情绪有关。在频空域中,𝛾 波段的激活度通常在消极情绪中较高,在积极情绪中较低。


▲ 图1:脑电信号在时频空域中的互补性

现有工作大多数仅分别从时空或频空方面提取信号特征并进行分类。而最新的同时考虑时频空特征的研究 SST-EmotionNet 基于通道电极的空间关系采用了网格图的方式来组织通道数据并对空白区域填充了 0。 2(a) 示意了该网格图的构造方法。

但这样做存在两方面的问题: 1. 由于事实上没有放置电极的脑部区域仍旧有着电信号。 所以填充 0 会引入噪声。 2. 物理位置相近的通道间不一定有着数据上的高关联。 而图 2(b)中图的构造方法可以反应通道间的拓扑关系且不用填入噪声。

▲ 图2:两种EEG通道的空间表示。(a):将EEG信号组织成2D map形式。(b):将EEG信号组织成图的形式


2. 如何同时建模多模态数据中的相关性和异质性。 多模态生理信号存在异质性和相关性。模态之间的异质性体现在从不同器官收集的各种信号的属性之间的差异。例如在图 3 中 EEG 信号和 ECG 信号在波形和振幅上有很大的差异。相关性包括模态内相关性和跨模态相关性。模态内相关性是同一模态中通道之间的关系,如图 2(b)所示的功能连接。跨模态相关性是不同模态的通道之间的关系。

例如,当参与者处于恐惧状态时,心电信号反映更大的心率加速,伴随着 GSR 信号的增加以及右额叶脑电信号的高激活程度。但现有方法仅分别建模了多模态生理信号的相关性或异质性。


▲ 图3:多模态生理信号的异质性

本文针对以上问题,提出了一种基于多模态生理信号的双流异质图递归神经网络 HetEmotionNet。



论文贡献


该模型构造了情绪异质图序列并输入到了双流结构中,同时捕获多模态生理信号的时-频-空三类特征;同时该模型利用了 GTN 来建模多模态生理信号的异质性,GCN 来建模多模态生理信号的相关性,并用 GRU 来提取多模态生理信号时域和频域间的依赖关系。本文的主要贡献可被概述如下:

  • 构建了多模态生理信号数据的时空和频空图表示。
  • 提出了一种基于图的同时融合生理信号时-频-空信息的双流结构。
  • 同时提取了多模态生理数据的相关性和异质性。
  • 在公开的多模态情绪识别数据集 DEAP 与 MAHNOB-HCI 上的实验表明,该模型相较基线方法有着出色的性能。



HetEmotionNet:双流异质图递归神经网络


▲ 图4:模型架构图
 
模型由结构一致但相互独立的时空流与频空流组成,它们分别用于提取多模态生理信号的时空特征与频空特征,输入分别为构建的时空和频空图序列。每一流都是一个异质图递归神经网络,由图转换网络(Graph Tansformer Network),图卷积神经网络(Graph Convolution Network)和门控循环单元层(Gated Recurrent Units)组合而成。最后,本文将两流网络提取得到的时频空域特征融合并用于情绪分类。

我们的模型的关键点有以下三个:

  • 设计了一种面向多模态情绪识别的异质时空和频空图表示。
  • 通过整合基于图的时空流和频空流在一个模型中来同时提取和融合多模态生理信号的时频空特征。

  • 采用了 GTN 来建模多模态生理数据的异质性;GCN 来捕获不同通道数据间的相关性。GRU 来捕获时域和频域中的依赖关系。


(1)异质图构造

对于每个样本,我们分别构建了一个异质的时空图序列和一个异质的频空图序列,如图 5 所示。这些异质图被用来描述多模态信号时域信息和频域信息在空间上的分布。我们主要分成以下三个步骤来构建时空图序列:

  • 先计算一个样本内不同通道间 128 个时间点数据的互信息值作为边的权重和邻接矩阵。步骤如图 5 中 ① 所示。
  • 为了构造异质图,我们分别将每个时间点的所有通道的值作为节点特征并和上一步计算得到的邻接矩阵构成了异质图。步骤如图 5 中 ② 所示。
  • 最后我们将 128 个时间点构建的异质图拼接起来构成了异质时空图序列。步骤如图 5 中 ③ 所示。


与构建时空图序列类似,本文也构建了频空图序列:

  •  首先对每个通道的值分别在四个频段上计算差分熵(DE)特征,步骤如图 5中 ④ 所示。

  • 然后分别将每个频带的所有通道值作为节点特征并和邻接矩阵组成了异质图,步骤如图 5 中 ⑤ 所示。
  • 最后将四个频带构建的异质图拼接得到异质频空图序列。步骤如图 5 中 ⑥ 所示。


▲ 图5:异质图序列构造过程

(2)异质图递归神经网络的组成

由于模型的时空流和频空流有着相同的结构,都是一个异质图递归神经网络,所以我们以时空流为例介绍。异质图递归神经网络由图转换网络(GTN),图神经网络(GCN)和门控循环单元(GRU)构成。三个部分的作用分别如下:

  • GTN 主要通过从异质图中自动提取一些元路径(即不同通道间的关系)来建模多模态数据的异质性。
  • GCN 利用 GTN 提取得到的元路径进行图卷积。对于相同的节点特征,文中分别为使用不同元路径的结果设置了不同的权重并进行了加权求和以重新构筑提取后的时空图序列。
  • GRU 利用 GCN 得到的图序列来建模不同时间点。对于提取得到的图序列,文中将每个时间点的图对应的送入 GRU 层相应的单元并将提取后所有单元的信息拼接起来送入分类器进行分类。



实验


本文在 DEAP 与 MAHNOB-HCI 两个多模态情绪识别数据集上进行实验并对模型进行评估,结果如下:



HetEmotionNet 在两个数据集上均取得了优于所有基线方法的性能。我们认为模型分类性能提升的原因有以下几点:

1. 不同于现有的方法,HetEmotionNet 在基于图的结构下同时捕获了多模态生理信号的时-频-空域特征,并利用了各种特征之间的互补性进行情绪分类。

2. 同时建模了多模态生理信号数据的异质性和相关性并提升了分类表现。



结论


本文提出了一种多模态情绪识别模型 HetEmotionNet。该模型使用基于图的双流结构同时捕获多模态生理信号的时-频-空三类特征;同时该模型利用了 GTN 来建模多模态生理信号的异质性,GCN 来建模多模态生理信号的相关性并用 GRU 来提取多模态生理信号时域和频域间的依赖关系。在公开的多模态情绪识别数据集 DEAP 与 MANODB-HCI 上的实验表明,该模型有着出色的性能并优于基线方法。

 

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
1

相关内容

专知会员服务
16+阅读 · 2021年7月31日
专知会员服务
29+阅读 · 2021年5月6日
多模态情绪识别研究综述
专知会员服务
159+阅读 · 2020年12月21日
【EMNLP2020】序列知识蒸馏进展,44页ppt
专知会员服务
38+阅读 · 2020年11月21日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
专知会员服务
93+阅读 · 2019年10月18日
TKDE'21 | 面向大规模图数据的对抗攻击
图与推荐
0+阅读 · 2021年10月22日
KDD2021 | 图表示学习系统教程 (附Slides)
机器学习与推荐算法
3+阅读 · 2021年9月7日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
23+阅读 · 2018年10月24日
VIP会员
相关VIP内容
专知会员服务
16+阅读 · 2021年7月31日
专知会员服务
29+阅读 · 2021年5月6日
多模态情绪识别研究综述
专知会员服务
159+阅读 · 2020年12月21日
【EMNLP2020】序列知识蒸馏进展,44页ppt
专知会员服务
38+阅读 · 2020年11月21日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
专知会员服务
93+阅读 · 2019年10月18日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员