Lack of large, well-annotated emotional speech corpora continues to limit the performance and robustness of speech emotion recognition (SER), particularly as models grow more complex and the demand for multimodal systems increases. While generative data augmentation offers a promising solution, existing approaches often produce emotionally inconsistent samples due to oversimplified conditioning on categorical labels. This paper introduces a novel mutual-information-regularised generative framework that combines cross-modal alignment with feature-level synthesis. Building on an InfoGAN-style architecture, our method first learns a semantically aligned audio-text representation space using pre-trained transformers and contrastive objectives. A feature generator is then trained to produce emotion-aware audio features while employing mutual information as a quantitative regulariser to ensure strong dependency between generated features and their conditioning variables. We extend this approach to multimodal settings, enabling the generation of novel, paired (audio, text) features. Comprehensive evaluation on three benchmark datasets (IEMOCAP, MSP-IMPROV, MSP-Podcast) demonstrates that our framework consistently outperforms existing augmentation methods, achieving state-of-the-art performance with improvements of up to 2.6% in unimodal SER and 3.2% in multimodal emotion recognition. Most importantly, we demonstrate that mutual information functions as both a regulariser and a measurable metric for generative quality, offering a systematic approach to data augmentation in affective computing.


翻译:大规模、标注良好的情感语音语料库的缺乏持续制约着语音情感识别(SER)的性能与鲁棒性,尤其是在模型日益复杂以及对多模态系统需求增长的背景下。尽管生成式数据增强提供了一种有前景的解决方案,但现有方法由于对类别标签的条件化过程过于简化,常常产生情感不一致的样本。本文提出了一种新颖的互信息正则化生成框架,该框架将跨模态对齐与特征级合成相结合。基于InfoGAN风格的架构,我们的方法首先利用预训练的Transformer模型和对比学习目标,学习一个语义对齐的音频-文本表示空间。随后,训练一个特征生成器以产生情感感知的音频特征,同时采用互信息作为量化正则化项,以确保生成特征与其条件变量之间存在强依赖性。我们将此方法扩展到多模态场景,使其能够生成新颖的配对(音频,文本)特征。在三个基准数据集(IEMOCAP, MSP-IMPROV, MSP-Podcast)上的综合评估表明,我们的框架始终优于现有的数据增强方法,在单模态SER中实现了高达2.6%的性能提升,在多模态情感识别中实现了高达3.2%的性能提升,达到了最先进的性能水平。最重要的是,我们证明了互信息既可作为正则化项,也可作为生成质量的量化度量指标,为情感计算中的数据增强提供了一种系统化的方法。

0
下载
关闭预览

相关内容

互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性.
【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员