Despite their advanced reasoning capabilities, state-of-the-art Multimodal Large Language Models (MLLMs) demonstrably lack a core component of human intelligence: the ability to `read the room' and assess deception in complex social interactions. To rigorously quantify this failure, we introduce a new task, Multimodal Interactive Deception Assessment (MIDA), and present a novel multimodal dataset providing synchronized video and text with verifiable ground-truth labels for every statement. We establish a comprehensive benchmark evaluating 12 state-of-the-art open- and closed-source MLLMs, revealing a significant performance gap: even powerful models like GPT-4o struggle to distinguish truth from falsehood reliably. Our analysis of failure modes indicates that these models fail to effectively ground language in multimodal social cues and lack the ability to model what others know, believe, or intend, highlighting the urgent need for novel approaches to building more perceptive and trustworthy AI systems. To take a step forward, we design a Social Chain-of-Thought (SoCoT) reasoning pipeline and a Dynamic Social Epistemic Memory (DSEM) module. Our framework yields performance improvement on this challenging task, demonstrating a promising new path toward building MLLMs capable of genuine human-like social reasoning.


翻译:尽管当前最先进的多模态大语言模型(MLLMs)具备强大的推理能力,但其明显缺乏人类智能的核心组成部分:在复杂社交互动中“察言观色”并评估欺骗行为的能力。为严格量化这一缺陷,我们提出了一项新任务——多模态交互式欺骗评估(MIDA),并构建了一个新颖的多模态数据集,该数据集提供同步的视频与文本数据,且每条陈述均包含可验证的真实标签。我们建立了一个综合性基准,评估了12个开源与闭源的先进MLLMs,结果揭示出显著的性能差距:即使是GPT-4o等强大模型也难以可靠地区分真实与虚假陈述。通过对失败模式的分析,我们发现这些模型未能有效将语言与多模态社交线索进行关联,且缺乏对他人认知、信念或意图的建模能力,这凸显了开发新方法以构建更具洞察力和可信度的人工智能系统的迫切需求。为此,我们设计了一种社交思维链(SoCoT)推理流程和一个动态社交认知记忆(DSEM)模块。我们的框架在这一挑战性任务上实现了性能提升,为构建具备真正类人社交推理能力的MLLMs指明了一条前景广阔的新路径。

0
下载
关闭预览

相关内容

从语言模型到语言智能体,普林斯顿Shunyu Yao
专知会员服务
62+阅读 · 2023年9月18日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员