The integration of embodied agents into human environments demands embodied social intelligence: reasoning over both social norms and physical constraints. However, existing evaluations fail to address this integration, as they are limited to either disembodied social reasoning (e.g., in text) or socially-agnostic physical tasks. Both approaches fail to assess an agent's ability to integrate and trade off both physical and social constraints within a realistic, embodied context. To address this challenge, we introduce Spatially Situated Social Intelligence Test (S$^{3}$IT), a benchmark specifically designed to evaluate embodied social intelligence. It is centered on a novel and challenging seat-ordering task, requiring an agent to arrange seating in a 3D environment for a group of large language model-driven (LLM-driven) NPCs with diverse identities, preferences, and intricate interpersonal relationships. Our procedurally extensible framework generates a vast and diverse scenario space with controllable difficulty, compelling the agent to acquire preferences through active dialogue, perceive the environment via autonomous exploration, and perform multi-objective optimization within a complex constraint network. We evaluate state-of-the-art LLMs on S$^{3}$IT and found that they still struggle with this problem, showing an obvious gap compared with the human baseline. Results imply that LLMs have deficiencies in spatial intelligence, yet simultaneously demonstrate their ability to achieve near human-level competence in resolving conflicts that possess explicit textual cues.


翻译:将具身智能体融入人类环境需要具身社交智能:即同时推理社会规范与物理约束。然而,现有评估方法未能解决这种整合问题,因为它们要么局限于非具身的社交推理(例如基于文本),要么局限于不考虑社交因素的物理任务。这两种方法均无法评估智能体在真实具身情境中整合并权衡物理与社会约束的能力。为应对这一挑战,我们提出了空间情境化社交智能测试(S$^{3}$IT),这是一个专门为评估具身社交智能而设计的基准。该基准围绕一项新颖且具有挑战性的座位排序任务展开,要求智能体在三维环境中为一组具有不同身份、偏好及复杂人际关系的大型语言模型驱动(LLM-driven)的非玩家角色安排座位。我们通过可程序化扩展的框架生成了规模庞大且多样化的场景空间,其难度可控,迫使智能体通过主动对话获取偏好、通过自主探索感知环境,并在复杂的约束网络中进行多目标优化。我们在S$^{3}$IT上评估了当前最先进的LLM,发现它们在此问题上仍存在困难,与人类基线相比存在明显差距。结果表明,LLM在空间智能方面存在不足,但同时也显示出它们在解决具有明确文本线索的冲突时能够达到接近人类水平的能力。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员