Social interactions incorporate nonverbal signals to convey emotions alongside speech, including facial expressions and body gestures. Generative models have demonstrated promising results in creating full-body nonverbal animations synchronized with speech; however, evaluations using statistical metrics in 2D settings fail to fully capture user-perceived emotions, limiting our understanding of model effectiveness. To address this, we evaluate emotional 3D animation generative models within a Virtual Reality (VR) environment, emphasizing user-centric metrics emotional arousal realism, naturalness, enjoyment, diversity, and interaction quality in a real-time human-agent interaction scenario. Through a user study (N=48), we examine perceived emotional quality for three state of the art speech-driven 3D animation methods across two emotions happiness (high arousal) and neutral (mid arousal). Additionally, we compare these generative models against real human expressions obtained via a reconstruction-based method to assess both their strengths and limitations and how closely they replicate real human facial and body expressions. Our results demonstrate that methods explicitly modeling emotions lead to higher recognition accuracy compared to those focusing solely on speech-driven synchrony. Users rated the realism and naturalness of happy animations significantly higher than those of neutral animations, highlighting the limitations of current generative models in handling subtle emotional states. Generative models underperformed compared to reconstruction-based methods in facial expression quality, and all methods received relatively low ratings for animation enjoyment and interaction quality, emphasizing the importance of incorporating user-centric evaluations into generative model development. Finally, participants positively recognized animation diversity across all generative models.


翻译:社交互动通过非语言信号(如面部表情和肢体动作)结合言语传递情感。生成式模型在创建与语音同步的全身非语言动画方面已展现出潜力;然而,在二维环境中使用统计指标的评估未能充分捕捉用户感知的情感,限制了我们对模型有效性的理解。为此,我们在虚拟现实(VR)环境中评估情感三维动画生成模型,重点关注实时人机交互场景中以用户为中心的指标:情感唤醒真实性、自然度、愉悦感、多样性和交互质量。通过一项用户研究(N=48),我们考察了三种先进语音驱动三维动画方法在两种情感状态——快乐(高唤醒)和中性(中唤醒)下的感知情感质量。此外,我们将这些生成式模型与基于重建方法获取的真实人类表达进行比较,以评估其优势、局限性及其对人类面部和肢体表达的还原程度。结果表明,与仅关注语音驱动同步性的方法相比,显式建模情感的方法具有更高的识别准确率。用户对快乐动画的真实性和自然度评分显著高于中性动画,突显了当前生成式模型在处理微妙情感状态时的局限性。在面部表达质量方面,生成式模型表现不及基于重建的方法,且所有方法在动画愉悦感和交互质量上评分均较低,这强调了将用户中心评估纳入生成式模型开发的重要性。最后,参与者对所有生成式模型的动画多样性均给予积极认可。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员