Depression is a prevalent global mental health disorder, characterised by persistent low mood and anhedonia. However, it remains underdiagnosed because current diagnostic methods depend heavily on subjective clinical assessments. To enable objective detection, we introduce a gold standard dataset of 103 clinically assessed participants collected through a tripartite data approach which uniquely integrated eye tracking data with audio and video to give a comprehensive representation of depressive symptoms. Eye tracking data quantifies the attentional bias towards negative stimuli that is frequently observed in depressed groups. Audio and video data capture the affective flattening and psychomotor retardation characteristic of depression. Statistical validation confirmed their significant discriminative power in distinguishing depressed from non depressed groups. We address a critical limitation of existing graph-based models that focus on low-frequency information and propose a Multi-Frequency Graph Convolutional Network (MF-GCN). This framework consists of a novel Multi-Frequency Filter Bank Module (MFFBM), which can leverage both low and high frequency signals. Extensive evaluation against traditional machine learning algorithms and deep learning frameworks demonstrates that MF-GCN consistently outperforms baselines. In binary classification, the model achieved a sensitivity of 0.96 and F2 score of 0.94. For the 3 class classification task, the proposed method achieved a sensitivity of 0.79 and specificity of 0.87 and siginificantly suprassed other models. To validate generalizability, the model was also evaluated on the Chinese Multimodal Depression Corpus (CMDC) dataset and achieved a sensitivity of 0.95 and F2 score of 0.96. These results confirm that our trimodal, multi frequency framework effectively captures cross modal interaction for accurate depression detection.


翻译:抑郁症是一种普遍的全球性精神健康障碍,其特征为持续的情绪低落和快感缺失。然而,由于当前诊断方法严重依赖主观临床评估,该疾病仍存在诊断不足的问题。为实现客观检测,我们引入了一个包含103名经临床评估参与者的金标准数据集,该数据集通过三模态数据采集方法收集,独特地将眼动追踪数据与音频、视频数据相结合,以全面表征抑郁症状。眼动数据量化了抑郁群体中常见的对负面刺激的注意偏向。音频和视频数据捕捉了抑郁症特有的情感平淡和精神运动性迟滞。统计验证证实了这些特征在区分抑郁与非抑郁群体方面具有显著的判别力。我们针对现有基于图的模型主要关注低频信息的局限性,提出了一种多频图卷积网络(MF-GCN)。该框架包含一个新颖的多频滤波器组模块(MFFBM),能够同时利用低频与高频信号。通过与传统机器学习算法和深度学习框架的广泛对比评估,MF-GCN始终优于基线模型。在二分类任务中,该模型实现了0.96的敏感度和0.94的F2分数。在三分类任务中,所提方法获得了0.79的敏感度和0.87的特异度,显著超越其他模型。为验证泛化能力,该模型还在中文多模态抑郁语料库(CMDC)数据集上进行评估,取得了0.95的敏感度和0.96的F2分数。这些结果证实,我们的三模态多频框架能有效捕捉跨模态交互,实现精准的抑郁症检测。

0
下载
关闭预览

相关内容

【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
专知会员服务
29+阅读 · 2021年6月7日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员