赛尔笔记|多模态情感分析语料库调研

2021 年 8 月 13 日 哈工大SCIR

作者：哈工大SCIR 杨浩、彭湃、张震宇

1. 介绍

在日趋快速发展的网络时代，人们更加倾向于利用图文结合或视频的形式表达自己的观点和情绪。这些多模态的语言数据凭借其更加丰富和更加具有吸引力的表现形式，以压倒性的优势占据了各大社交媒体网站，同时也为研究多模态语言计算提供了充足的数据资源。

情感分析作为人工智能领域的关键分支，一直以来受到学者的广泛关注，传统的情感计算旨在通过文本分析技术让机器像人类一样理解情感和表达情感。而在处理和分析情感时，人类不同于机器的两个重要特征：一是人类处于多种模态共存的场景下，具体表现为通过语言、视觉、声音、手势等共同作用无缝衔接的表达我们的意图和情感；二是人类处理情感具备模态间切换的情感推理能力，可以从不同模态中切换寻得蛛丝马迹，并相互关联进行情感推理。因此近年来，多模态的情感分析逐渐成为情感分析领域的关键任务，在多模态语境下的情感分析才会使机器接近更真实的人类情感处理。这也意味着研究具有类人的多模态信息捕获及推理能力的多模态情感计算技术将对智能陪伴、智能客服以及电子商务等提供高质量的技术支撑。

本文梳理了目前多模态情感分析的语料集及对应方法，包括图文、视频数据的情感分析的常用语料，以及反讽识别、幽默检测、抑郁检测等任务的相关语料。

2. 相关任务概述

本文通过不同的多模态情感分析子任务进行梳理，介绍相关子任务和对应数据集以及在数据集上的最新研究工作。主要分为：面向视频评论的情感分析、面向视频评论的细粒度情感分析、面向视频对话的情绪分析、面向视频的反讽识别、面向图文的反讽识别、面向图文的情感分析、面向图文的细粒度情感分析、幽默检测、抑郁检测。本文分别总结了相关数据集和方法，具体内容见第三部分。

表1 多模态情感分析相关数据集和方法概览

模态	任务	数据集及下载地址			方法
声图文	面向视频评论的情感分析	Youtube数据集	MOSI数据集	MOSEI数据集	Self-MM[5]	Mult[4]
		https://projects.ict.usc.eduyoutube	https://github.com/A2Zadeh/CMU-MultimodalSDK	https://github.com/A2Zadeh/CMU-MultimodalSDK
声图文	面向视频评论的细粒度情感分析	CH-SIMS数据集			MTFN[6][7]
		https://github.com/thuiar/MMSA
声图文	面向视频对话的情绪分析	IEMOCAP数据集	MELD数据集		DialogueRNN[11]	MESM[12]
		https://sail.usc.edu/iemocap/	https://affective-meld.github.io
声图文	面向视频的反讽识别	MUStARD数据集			Early Fusion +SVM[13]
		https://github.com/soujanyaporia/MUStARD
图文	面向图文的反讽识别	Twitter反讽数据集			D&R net[20]
		https://github.com/headacheboy/data-of-multimodal-sarcasm-detection
图文	面向图文的情感分析	Yelp数据集	MVSA数据集
		https://www.yelp.com/dataset	http://mcrlab.net/research/mvsa-sentiment-analysis-on-multi-view-social-data/
图文	面向图文的细粒度情感分析	Multi-ZOL数据集	Twitter-15&17数据集		TomBert[22]
		https://github.com/xunan0812/MIMN	https://github.com/jefferyYu/TomBERT
声图文	幽默检测	UR-FUNNY数据集			C-MFN[18]
		https://github.com/ROC-HCI/UR-FUNNY
声图文	抑郁检测	DAIC-WOZ数据集
		https://dcapswoz.ict.usc.edu
图文	抑郁检测	Twitter抑郁检测数据集			MDL[17]
		https://depressiondetection.droppages.com

3. 多模态情感数据集及方法

3.1 面向视频评论的情感分析

数据集

CMU-MOSI[1]的数据来源于在线分享网站YouTube中的视频博客(vlog)，随机选择了93个视频，来自89个独立讲者的视频，其中包括41个女性讲者和48名男性讲者。大多数讲者的年龄在20到30岁之间。讲者来自不同的背景(白种人、黄种人等)，并且均用英语表达自己的观点。从93个视频中选择了2199个视频片段，标注每个视频片段的情感极性范围为[-3,3]。

CMU-MOSEI[2] 中的样本选自于 YouTube 中的评论视频，包含 23453 个视频片段，来自 1000 个不同的讲者与 250 个话题类型。在收集过程中使用人脸检测技术确保视频为单人评论，并且选择演讲者的注意力完全在相机上的视频。每个视频即标注了情感又标注了情绪。情感标注为 [-3,3] 中的 7 个整数。情绪标注为 { 开心、伤心、愤怒、害怕、厌恶、惊讶 } 。

YouTube[3]数据集来源于视频网站YouTube，数据集包含了来自不同年龄和性别群体的人的47个视频，其中包括20个女性讲者和27个男性讲者，年龄范围在14到60岁之间，讲者直面相机对不同的话题表达了自己的观点。数据集不是基于某个特定的主题，而是从多个关键词搜索出的视频中选择出来的，例如牙膏、战争、工作等。每个视频片段的时长为2到5分钟，每个视频的格式为.mp4，大小为360*480。每个视频的情感极性标注为消极、中性和积极。需要注意的是，数据集标注的不是观看者对于视频的情感，而是视频中所表达出的情感。

方法

接下来介绍两篇应用于视频评论多模态数据集的工作，分别是发表于ACL 2019的Multimodal Transformer[4]和AAAI2021上的self-MM[5]。

MulT (Multimodal Transformer)

之前的主流工作是基于word-level alignment序列的（将音频和视频的特征对齐到文本模态）但是这种做法没有考虑不同模态间的时序依赖关系。因此，这篇工作提出跨模态Cross-model attention在非对齐数据集上进行跨模态交互。模型图如图1.1所示。

图1.1 MulT 模型结构

如图1.1所示，首先将三个模态的特征分别经过Conv1D将三个模态的特征映射到同一维度。受到Transformer中decoder将一种语言翻译到另一种语言的启发，作者提出融合跨模态信息的一种方法是提供一种潜在的跨模态适应(latent adaptation across modalities)，因此作者提出了跨模态注意力模块Cross-model attention(如图1.2所示)，并基于Cross-model attention设计跨模态Transformer结构使一个模态从另一个模态接收信息，由于有3个模态共有6个跨模态Transformer。获得了多模态交互表示之后采用基于self-attention的Transformer结构建模语义信息，最后拼接三组特征进行情感分类。

图1.2 跨模态注意力与跨模态transform

Self-MM

ACL20的yu et al.[6]证明单模态标签的存在可以使模型学习到更多的信息，但是不足之处是标注单模态标签需要耗费很大的人力。因此Self-MM这篇论文提出使用自监督学习策略自动地生成单模态标签。作者认为单模态标签和多模态标签是高度相关的，首先计算模态表示与模态中心点的相对距离为α，作者认为单模态的相对距离α_单与多模态的相对距离α_多的比值约等于单模态标签与多模态标签的比值，通过这一关系计算出单模态标签距离多模态标签的偏移，进而得出单模态标签。之后使用多任务学习同时训练多模态与3个单模态任务。论文模型图如图2所示。

图2 self-MM模型图

3.2 面向视频的对话情绪分析

数据集

IEMOCAP[8]数据集是南加州大学SAIL实验室收集的一个多模态对话数据集。它包含大约12小时的多模态数据，包括视频、音频、脸部动作捕捉以及转录文本。数据集的收集由5个专业男演员和5个专业女演员以双人对话的形式进行，演员在其中进行即兴对话或剧本对话，并着重进行情感表达。数据集总共包括4787条即兴对话和5255条剧本对话，平均每段对话有50句话，每句话平均持续时间为4.5秒。对话片段的每句话被标注为特定的情绪标签，分为愤怒、快乐、悲伤、中性在内的十个类别。

图3 IEMOCAP数据集示例

MELD[9]数据集源于EmotionLines[10]数据集，后者是一个纯文本的对话数据集，来自于经典电视剧老友记。MELD数据集包含了与EmotionLines相同的对话，并在此基础上包含了视频、音频和文本的多模态数据。数据集总共包含1443段对话，13708句话语，平均每段对话有9.5句话，每句话平均持续时间为3.6秒。对话片段的每句话被标注为七种情绪标签的其中一个，包括生气、厌恶、悲伤、快乐、中性、惊喜和恐惧。与此同时，每句话也拥有相应的情感标签，分为积极、消极和中性。

图4 MELD数据集示例

方法

DialogueRNN

区别于传统的单句情绪分析，对话情绪分析的目的是判断一段段对话中每句话的情绪属性，往往需要考虑对话中的说话人信息和对话的场景信息，且受上文对话内容的影响较大。Majumder等人[11]提出了DialogueRNN用于多模态对话情绪分析任务。该模型定义了全局的语境状态（Global state）和对话参与者的状态（Party state）。模型包含3个GRU网络，其中Global GRU通过上文的内容和当前的话语表示来建模全局上下文信息，Party GRU通过使用注意力机制平均后的上文信息、当前的话语表示及其说话人表示来建模说话人的情绪变化，Emotion GRU通过建模每句话语的说话人情绪变化来建模整个对话的情绪变化。最终模型将Emotion GRU得到的话语情绪表示送入分类网络用于获得情感标签。

图5 DialogueRNN模型

MESM(Multimodal End-to-End Sparse Model)

与DialogueRNN注重说话人信息和对话的场景信息不同，MESM模型[12]的侧重点在于端到端地进行多模态情绪识别任务。现有的多模态情绪识别模型通常采用两阶段模式，首先使用预先定义特征提取算法提取各个单模态特征表示，然后在提取到的特征层面上进行端到端的学习。然而，在这种模式中特征提取算法是固定的，无法在不同的目标任务上进行微调，人为定义的特征提取算法不能很好地泛化到不同的任务上，从而导致性能的下降。为此，作者提出了MESM模型实现完全端到端的训练，同时引入稀疏跨模态注意力机制用于减少端到端模型带来的庞大计算开销。

如图6所示，模型首先使用底层的卷积神经网络提取low-level的视频和音频特征，接下来使用跨模态注意力网络寻找图像和音频频谱中含有丰富信息的位置，并使用稀疏卷积神经网络继续提取high-level的视频和音频特征。经过上述处理后，视频和音频特征被表示为沿时间轴的特征向量序列。接下来，模型使用3个不同的Transformer网络分别处理各个模态的特征序列，并获得视频、音频和文本的话语级特征表示，各特征经过FFN网络后使用加权平均的方式获得最后的情绪分类结果。

图6 MESM模型

3.3 面向视频的细粒度情感分析

数据集

CH-SIMS[6]是一个细粒度标注的中文多模态情感分析数据集，主要特点是同时具有单模态和多模态的情感标签。CH-SIMS数据集从电影片段、电视连续剧和多种演出节目中收集了60个原始视频，并从中进行帧级别的剪裁，最好得到了2281个视频片段。

标注者对每个视频片段进行文本、音频、无声视频和多模态共4种模态的标注。为了避免不同模态之间的相互干扰影响标注质量，在标注过程中每个标注者只能看到当前模态的信息。具体地说，每个标注者首先进行单模态标注，然后再进行多模态标注，其顺序是文字-音频-无声视频-多模态。

每个视频片段的各个模态都由 5 位标注者进行标注，标签分为 -1 （消极）、 0 （中性）或 1 （积极）。为了使数据集同时适用于回归任务和分类任务，作者对五个标注结果进行平均，得到的最终的标注结果是 {-1.0 ， -0.8 ， -0.6 ， -0.4 ， -0.2 ， 0.0 ， 0.2 ， 0.4 ， 0.6 ， 0.8 ， 1.0} 中的某个值，并将该数值分为 5 类：消极 {-1.0 ， -0.8} ，弱消极 {-0.6 ， -0.4 ， -0.2} ，中性 {0.0} ，弱积极 {0.2 ， 0.4 ， 0.6} 、积极 {0.8 ， 1.0} 。

以往多模态情感分析数据集只包含统一的多模态标注。然而，多模态标注并不总能反映各个单一模态的独立情感，并且限制了模型对模态之间差异的捕捉。CH-SIMS的提出让研究人员能够进一步了解不同模态之间的相互作用，或使用独立的单模态标注进行单模态情感分析研究。

图7 CH-SIMS标注示例

方法

CH-SIMS数据集作者同时提出了多模态多任务学习框架[1]（Multimodal Multi-task Learning Framework），该框架首先使用单模态子网络提取utterance的各个模态的特征向量，然后使用多模态特征融合方法将各个单模态表示融合为一个多模态的表示。模型分别使用单模态特征和多模态特征进行情感分析。除了在不同模态下进行多任务学习，作者使用L2正则来约束每个模态的共享参数，用于获取更好地单模态特征。最后的优化目标如下：

其中是训练样本数，。表示第个样本模态的训练损失。是模态和多模态任务的共享参数。是平衡不同任务的超参数，表示模态的子网络对应的权重衰减系数。

图8 多模态多任务学习框架

Zadeh等人[7]提出了一种基于张量外积（Outer product）的多模态融合方法Tensor Fusion Network。在编码阶段，TFN使用LSTM+全连接层网络对文本模态的输入进行编码，分别使用一个3层的DNN网络对语音和视频模态的输入进行编码。在模态融合阶段，对三个模态编码后的输出向量作外积，得到包含单模态信息、双模态和三模态的融合信息的多模态表示向量，用于下一步的决策操作。MTFN模型结合了多模态多任务学习框架和多模态特征融合方法TFN，作者通过实验证明多模态多任务学习框架在CH-SIMS数据集上能够有效提升TFN、LF-DNN和LMF模型的表现。

3.4 面向视频的反讽识别

数据集

MUStARD[13]是一个多模态讽刺检测数据集，它的主要来源是英文连续剧，包括老友记、生活大爆炸、黄金女郎和Sarcasmaholics Anonymous，同时作者也从MELD数据集中获取非讽刺的视频内容。作者从以上来源中共收集了6365个视频片段并进行标注，其中345个是具有讽刺的视频片段，为了使得类别均衡，作者从剩下的非讽刺视频片段中选取了345个，最后组成了大小为690个视频片段的数据集。数据集标注内容包括每个视频片段的台词、说话人，该片段的上文台词以及其说话人，该片段的影视剧来源和是否为讽刺的标签。丰富的标注内容能够使得研究人员进行更加多样的学习任务，包括研究上下文和说话人对于讽刺检测任务的影响。

图9 MUStARD示例

方法

Early Fusion + SVM

关于多模态讽刺检测，数据集作者提出了一种解释——讽刺的线索往往来自于模态间的不一致。如下图Sheldon的例子，文本包含了赞美的情绪，但从音频和视频来看，Sheldon语气和表情都很平静，这种模态之间的不一致与讽刺具有很强的关联性。

图10 讽刺片段中的模态不一致示例

在这个思路下，作者提出了一个基于SVM的模型用于多模态讽刺检测，SVM比较适用于小规模数据集。在文本的部分，作者使用了BERT，对每句话提取一个768维的特征向量。音频部分则是利用libROSA库，提取了音频的基础特征，如MFCC，过零率等。每段音频被切成不重合的小窗，提出不同特征拼接后将每段小窗取平均，对于整段音频就可以得到一个283维的特征向量。视频部分则在抽帧后放入了一个由ImageNet预训练好的Resnet-152网络进行提取，最后对视频所抽的帧取平均，获得一个2048维的特征向量。当三个模态的特征被提取后，作者使用简单的连接，将三个模态的特征进行early fusion，并送入一个的SVM分类器中进行分类。

图11 Early Fusion + SVM模型

3.5 面向图文的反讽识别

数据集

Twitters反讽数据集[19]收集自Twitter平台，通过搜索包含讽刺意味的特殊标签如#sarcasm、#sarcastic、#irony、#ironic等获取带讽刺意味的英文推文作为讽刺标签数据（正样本），并收集其他不包含此类标签的推文作为非讽刺数据（负样本）。数据集分为训练集、开发集和测试集，分别是19816（80%）,2410（10%）,2409（10%）条带图片推文。该数据集的标注为是讽刺/不是讽刺二分类。

方法

D&R net（Decomposition and Relation Network）[20]可以分为Decomposition Network(D-net)和Relation Network(R-net)两部分。其中R-net主要用来捕获图文间上下文关联信息，首先在预处理阶段对每张图片提取形容词名词对（ANP），在此基础上利用基于ANP感知的跨模态注意力机制，通过ANP来建模文本与图像模态间关联信息。而D-net则侧重于学习模态间的差异化信息，这种差异化信息在讽刺语境下较常出现，例如：“这真是飞行的好天气！”，并配了一幅阴雨连绵的机场照片。D-net中包含文本特有层、图像特有层以及一个图文共享层，利用共享层捕获模态间相似信息，使得特有层能够更多的捕获到模态间不一致的信息，这种模态间差异信息能够有效提高反讽检测性能。

图12 D&R net模型

3.6 面向图文的情感分析

数据集

Yelp数据集收集自http://yelp.com评论网站，数据集收集了Yelp上波士顿，芝加哥，洛杉矶，纽约，旧金山五个城市关于餐厅和食品的评论。共包含44305条文本评论，附带244569张图片，每条评论可能包含多张图片。平均每条文本评论包含13个句子，230个单词。情感标签为对每条数据进行情感倾向打分，打分为5分制1，2，3，4，5。

MVSA数据集[23]收集自Twitter平台的图像文本对，并人工标注了积极、中性、消极三类情感标签。MVSA数据集包含两部分，一部分是MVSA-Single（MVSA-S）每个样本由一位标注者进行标注只包含一个情感标注标签，共4869个图像-文本对；另一部分是MVSA-Multiple，每个样本由三位标注者进行标注包含三个情感标注标签，共19598个图像-文本对。

3.7 面向图文的细粒度情感分析

数据集

Multi-ZOL数据集[24]收集自中关村ZOL上关于手机的中文评论。原始数据包含12587条评论，Multi-ZOL选取了其中带图片的5288条多模态评论。数据领域为电子产品手机领域，包含114个品牌的1318款手机，并根据网站手机评价标签选取了六个评价aspect，分别是：性价比、性能配置、电池寿命、外观与感觉、拍摄效果、屏幕。每条数据包含一段中文评价文本以及多张图片，并针对文本中出现的aspect标注了1-10的情感得分。

Twitter-15和Twitter-17数据集[22]收集自社交媒体Twitter平台的英文推文，数据形式为文本-图像对，数据集标注了文本中出现的aspect及对其图文中表达的情感倾向。整个的数据规模是Twitter-15 包含5338条带图片推文，数据集划分为训练集（3179）、验证集（1122）、测试集（1037），Twitter-17包含5972条带图片推文，情感标注为三分类，数据集划分为训练集（3562）、验证集（1176）、测试集（1234）。

方法

TomBERT模型[22]主要针对细粒度图文情感分析中基于目标的情感分析任务，即判断给定目标在图文数据中的情感极性。相较于传统模型，TomBERT模型基于更加强大的预训练模型BERT，这意味着模型有较强的处理文本信息的能力。而对于图片模态，作者考虑到图像中与目标词关联的关键部分应起到更加显著的作用，通过利用自注意力机制引导模型捕获对于目标词而言图像中更重要的部分，从而得到目标词关注的图像表示，之后将文本和图像表示进行连接，使用多模态编码器学习图文联合表示用于最终的情感分类。

图13 TomBERT模型

3.8 幽默检测

数据集

UR-FUNNY数据集[18]收集了TED的1866个演讲视频，这些视频来自1741位演讲者，涵盖417个主题，其中最常见的五个主题为：技术、科学、文化、全球问题和设计。TED视频包含可靠的人工转录字幕和观众行为标记，因此可以建立很好的视频-音频-文本对齐，并通过“笑声标记”作为幽默指标，标记出引起观众发出笑声的句子来作为幽默句。整个数据集的总持续时间为90.23个小时，总共有16514个幽默和非幽默实例的视频片段（各占一半）。每个数据实例的平均持续时间为19.67秒，上下文平均为14.7秒，幽默句平均为4.97秒。幽默句中的平均单词数为16.14词，上下文句子中的平均单词数为14.80词。

方法

C-MFN模型[18]在MFN模型[25]基础上进行改进，模型主要分为三部分：单模态上下文网络，使用LSTM对每个单模态信息进行编码；多模态上下文网络，利用自注意力机制捕获模态间的交互信息；记忆融合网络（MFN），利用前两部分的输出进行初始化，使用“Delta-memory attention”和“Multi-View Gated Memory”来同时捕捉时序上和模态间的交互。图展示了C-MFN模型的三部分。

图14 C-MFN模型

3.9 抑郁检测

数据集

DAIC-WOZ语料库[15]筛选自遇险分析语料库（DAIC）[14]中Wizard-of-Oz部分，由人控制的动画虚拟采访者Ellie与可能患有精神类疾病的受访者之间的交互会话构成。数据包含189段7-33分钟（平均16分钟）的交互会话片段，每个交互会话片段包含文本交互记录、受访者音频文件和面部特征。DAIC-WOZ语料通过计算受访者的健康情况调查问卷（PHQ8）得分以及一个二进制状态标签（PHQ8>=10），来作为受访者的心理健康情况标签。并提供了基于CLNF面部行为分析框架的视觉特征、会话文本、音频文件和基于COVAREP的音频特征。

Twitter抑郁检测数据集[17]收集自Twitter平台，其受Coppersmith等人[16]的启发，收集用户推文中包含严格满足格式“(I’m/ I was/ I am/ I’ve been) diagnosed depression（我被诊断为抑郁症）”的用户，和该用户近一个月的推文来构成抑郁症患者数据集，包含1,402个抑郁患者和292,564条推文。并通过统计用户从未发布过任何包含单词“depress”的用户和推文作为非抑郁患者数据集，包含3亿以上用户和100亿条以上的推文。除此之外，该数据集也包含一个未标记的抑郁症候选数据集，即用户推文中包含单词“depress”，共36,993名抑郁症候选患者及3,500万条推文。在此基础上，作者抽取了数据的社交网络特征、用户画像特征、视觉特征、情感特征、话题级别特征和领域特征。其中视觉特征提取对象为用户头像，作者认为头像是人在社交网络中的第一印象，包含更生动且复杂的信息，因此通过提取用户头像图片的颜色组合，亮度、饱和度、冷色比例和清晰色比例来作为视觉特征。

方法

MDL(multimodal depressive dictionary learning model)[17]在Twitter抑郁检测数据集六类特征（社交网络特征、用户画像特征、视觉特征、情感特征、话题级别特征和领域特征）的基础上，将每个特征组看作一个独立模态进行学习。MDL可以分为三层：单模态字典学习层、多模态联合稀疏表示层和抑郁分类层。由于每个模态包含丰富的信息，但并非所有信息都与抑郁用户明显相关，因此可通过单模态字典学习方法来学习用户的潜在稀疏表示，继而通过多模态联合来学习跨模态信息，得到最终表示进行抑郁判断二分类。

图15 MDL模型

4. 总结

目前的多模态情感分析语料库已初具规模，但由于多模态数据蕴含的信息复杂多变噪声多、模态间对齐困难等问题，导致多模态的数据标注难度更大，进行多模态数据标注的成本也更高。随着多模态情感分析的研究愈加深入，目前的数据集也出现了粒度较粗、涉及领域较窄，不能满足实际应用需要的问题。除此之外，类似幽默检测、抑郁检测等涉及更加特定情感的研究也缺少公开的数据集，仍有许多问题的研究缺少相关数据支撑。优秀的数据集是目前研究的基石，因此，希望未来能够涌现出更多更多高质量的数据集，推动多模态情感分析领域的发展。

参考文献

[1]. Amir Zadeh, Rowan Zellers, Eli Pincus, and LouisPhilippe Morency. 2016a. Mosi: Multimodal corpus of sentiment intensity and subjectivity analysis in online opinion videos. arXiv preprint arXiv:1606.06259 .

[2]. AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria, and Louis-Philippe Morency. 2018b. Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph. In Proceedings ofthe 56th Annual Meeting ofthe Association for Computational Linguistics (Volume 1: Long Papers), pages 2236–2246.

[3]. Morency L P , Mihalcea R , Doshi P . Towards Multimodal Sentiment Analysis: Harvesting Opinions from the Web[C]// Proceedings of the 13th International Conference on Multimodal Interfaces, ICMI 2011, Alicante, Spain, November 14-18, 2011. ACM, 2011.

[4]. Tsai Y , Bai S , Liang P P , et al. Multimodal Transformer for Unaligned Multimodal Language Sequences[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.

[5]. Yu W , H Xu, Yuan Z , et al. Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis[J]. 2021.

[6]. Yu W , Xu H , Meng F , et al. CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotation of Modality[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020.

[7]. Zadeh A, Chen M, Poria S, et al.Tensor Fusion Network for Multimodal Sentiment Analysis[C]. EMNLP, 2017: 1103-1114.

[8]. Busso C, Bulut M, Lee C, et al.IEMOCAP: interactive emotional dyadic motion capture database[J]. languageresources and evaluation, 2008, 42(4): 335-359.

[9]. Poria S, Hazarika D, MajumderN, et al. MELD: A Multimodal Multi-Party Dataset for Emotion Recognition inConversations[J]. arXiv: Computation and Language, 2018.

[10].Chen, S.Y., Hsu, et al. EmotionLines: An Emotion Corpus of Multi-Party Conversations. arXiv preprint arXiv:1802.08379, 2018.

[11].Majumder N, Poria S, Hazarika D,et al. DialogueRNN: An Attentive RNN for Emotion Detection in Conversations[C].national conference on artificial intelligence, 2019: 6818-6825.

[12].Dai W, Cahyawijaya S, Liu Z. Multimodal End-to-End Sparse Model for Emotion Recognition[C]. NAACL, 2021: 5305–5316.

[13].Castro S, Hazarika D,Perezrosas V, et al. Towards Multimodal Sarcasm Detection (An *Obviously* Perfect Paper).[J]. arXiv: Computation and Language, 2019.

[14].Gratch J, Artstein R, Lucas G M, et al. The distress analysis interview corpus of human and computer interviews[C]//LREC. 2014: 3123-3128.

[15].DeVault D, Artstein R, Benn G, et al. SimSensei Kiosk: A virtual human interviewer for healthcare decision support[C]//Proceedings of the 2014 international conference on Autonomous agents and multi-agent systems. 2014: 1061-1068.

[16].Coppersmith G, Dredze M, Harman C. Quantifying mental health signals in Twitter[C]//Proceedings of the workshop on computational linguistics and clinical psychology: From linguistic signal to clinical reality. 2014: 51-60.

[17].Shen G, Jia J, Nie L, et al. Depression Detection via Harvesting Social Media: A Multimodal Dictionary Learning Solution[C]//IJCAI. 2017: 3838-3844.

[18].Hasan M K, Rahman W, Zadeh A, et al. UR-FUNNY: A multimodal language dataset for understanding humor[J]. arXiv preprint arXiv:1904.06618, 2019.

[19].Cai Y, Cai H, Wan X. Multi-modal sarcasm detection in twitter with hierarchical fusion model[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 2506-2515.

[20].Xu N, Zeng Z, Mao W. Reasoning with multimodal sarcastic tweets via modeling cross-modality contrast and semantic association[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 3777-3786.

[21].Cheema G S, Hakimov S, Müller-Budack E, et al. A Fair and Comprehensive Comparison of Multimodal Tweet Sentiment Analysis Methods[J]. arXiv preprint arXiv:2106.08829, 2021.

[22].Yu J , Jiang J . Adapting BERT for Target-Oriented Multimodal Sentiment Classification[C]// Twenty-Eighth International Joint Conference on Artificial Intelligence {IJCAI-19. 2019.

[23].T. Niu, S. A. Zhu, L. Pang and A. El Saddik, Sentiment Analysis on Multi-view Social Data, MultiMedia Modeling (MMM), pp: 15-27, Miami, 2016.

[24].Xu N, Mao W, Chen G, et al.Multi-Interactive Memory Network for Aspect Based Multimodal SentimentAnalysis[C]. national conference on artificial intelligence, 2019: 371-378.

[25].Zadeh A, Liang P P, Mazumder N,et al. Memory Fusion Network for Multi-view Sequential Learning[J]. arXiv:Learning, 2018.

本期责任编辑：丁效

本期编辑：张馨

哈尔滨工业大学社会计算与信息检索研究中心

理解语言，认知社会

以中文技术，助民族复兴

登录查看更多