Embodied cognition argues that intelligence arises from sensorimotor interaction rather than passive observation. It raises an intriguing question: do modern vision-language models (VLMs), trained largely in a disembodied manner, exhibit signs of embodied cognition? We introduce ENACT, a benchmark that casts evaluation of embodied cognition as world modeling from egocentric interaction in a visual question answering (VQA) format. Framed as a partially observable Markov decision process (POMDP) whose actions are scene graph changes, ENACT comprises two complementary sequence reordering tasks: forward world modeling (reorder shuffled observations given actions) and inverse world modeling (reorder shuffled actions given observations). While conceptually simple, solving these tasks implicitly demands capabilities central to embodied cognition-affordance recognition, action-effect reasoning, embodied awareness, and interactive, long-horizon memory from partially observable egocentric input, while avoiding low-level image synthesis that could confound the evaluation. We provide a scalable pipeline that synthesizes QA pairs from robotics simulation (BEHAVIOR) and evaluates models on 8,972 QA pairs spanning long-horizon home-scale activities. Experiments reveal a performance gap between frontier VLMs and humans that widens with interaction horizon. Models consistently perform better on the inverse task than the forward one and exhibit anthropocentric biases, including a preference for right-handed actions and degradation when camera intrinsics or viewpoints deviate from human vision. Website at https://enact-embodied-cognition.github.io/.


翻译:具身认知理论认为智能产生于感知运动交互而非被动观察。这引发了一个引人深思的问题:主要在非具身方式下训练的现代视觉语言模型(VLMs)是否表现出具身认知的迹象?我们提出了ENACT基准,该基准以视觉问答(VQA)形式,通过自我中心交互的世界建模来评估具身认知。ENACT被构建为部分可观测马尔可夫决策过程(POMDP),其动作为场景图变化,包含两个互补的序列重排序任务:前向世界建模(给定动作对乱序观察进行重排序)和逆向世界建模(给定观察对乱序动作进行重排序)。尽管概念简单,解决这些任务隐式要求具备具身认知的核心能力——可供性识别、动作-效果推理、具身意识,以及从部分可观测的自我中心输入中获取交互式长时程记忆,同时避免可能干扰评估的低层次图像合成。我们提供了一个可扩展的流程,从机器人仿真(BEHAVIOR)中合成问答对,并在涵盖长时程家庭规模活动的8,972个问答对上评估模型。实验揭示了前沿VLMs与人类之间的性能差距,该差距随交互时域延长而扩大。模型在逆向任务上的表现始终优于前向任务,并表现出人类中心偏见,包括偏好右手动作,以及当相机内参或视角偏离人类视觉时性能下降。项目网站:https://enact-embodied-cognition.github.io/。

0
下载
关闭预览

相关内容

【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员