With the rapid growth of AI-generated content (AIGC) across domains such as music, video, and literature, the demand for emotionally aware recommendation systems has become increasingly important. Traditional recommender systems primarily rely on user behavioral data such as clicks, views, or ratings, while neglecting users' real-time emotional and intentional states during content interaction. To address this limitation, this study proposes a Multi-Modal Emotion and Intent Recognition Model (MMEI) based on a BERT-based Cross-Modal Transformer with Attention-Based Fusion, integrated into a cloud-native personalized AIGC recommendation framework. The proposed system jointly processes visual (facial expression), auditory (speech tone), and textual (comments or utterances) modalities through pretrained encoders ViT, Wav2Vec2, and BERT, followed by an attention-based fusion module to learn emotion-intent representations. These embeddings are then used to drive personalized content recommendations through a contextual matching layer. Experiments conducted on benchmark emotion datasets (AIGC-INT, MELD, and CMU-MOSEI) and an AIGC interaction dataset demonstrate that the proposed MMEI model achieves a 4.3% improvement in F1-score and a 12.3% reduction in cross-entropy loss compared to the best fusion-based transformer baseline. Furthermore, user-level online evaluations reveal that emotion-driven recommendations increase engagement time by 15.2% and enhance satisfaction scores by 11.8%, confirming the model's effectiveness in aligning AI-generated content with users' affective and intentional states. This work highlights the potential of cross-modal emotional intelligence for next-generation AIGC ecosystems, enabling adaptive, empathetic, and context-aware recommendation experiences.


翻译:随着AI生成内容(AIGC)在音乐、视频和文学等领域的快速增长,对具备情感感知能力的推荐系统的需求日益凸显。传统推荐系统主要依赖用户点击、浏览或评分等行为数据,而忽视了用户在内容交互过程中的实时情感与意图状态。为克服这一局限,本研究提出了一种基于BERT的跨模态注意力融合Transformer的多模态情感与意图识别模型(MMEI),并将其集成于云原生个性化AIGC推荐框架中。该系统通过预训练的ViT、Wav2Vec2和BERT编码器,对视觉(面部表情)、听觉(语音语调)和文本(评论或话语)模态进行联合处理,再经由基于注意力的融合模块学习情感-意图表征。这些嵌入表示随后通过上下文匹配层驱动个性化内容推荐。在基准情感数据集(AIGC-INT、MELD和CMU-MOSEI)及AIGC交互数据集上的实验表明,所提出的MMEI模型相比最佳的基于融合的Transformer基线,F1分数提升了4.3%,交叉熵损失降低了12.3%。此外,用户级在线评估显示,情感驱动推荐使用户参与时长增加了15.2%,满意度评分提高了11.8%,证实了该模型在使AI生成内容与用户情感及意图状态相匹配方面的有效性。本工作凸显了跨模态情感智能在下一代AIGC生态系统中的潜力,为实现自适应、共情且情境感知的推荐体验提供了可能。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
【AAAI2021】低资源医疗对话生成的图演化元学习
专知会员服务
48+阅读 · 2020年12月26日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员