Embodied navigation that adheres to social norms remains an open research challenge. Our \textbf{SocialNav} is a foundational model for socially-aware navigation with a hierarchical "brain-action" architecture, capable of understanding high-level social norms and generating low-level, socially compliant trajectories. To enable such dual capabilities, we construct the SocNav Dataset, a large-scale collection of 7 million samples, comprising (1) a Cognitive Activation Dataset providing social reasoning signals such as chain-of-thought explanations and social traversability prediction, and (2) an Expert Trajectories Pyramid aggregating diverse navigation demonstrations from internet videos, simulated environments, and real-world robots. A multi-stage training pipeline is proposed to gradually inject and refine navigation intelligence: we first inject general navigation skills and social norms understanding into the model via imitation learning, and then refine such skills through a deliberately designed Socially-Aware Flow Exploration GRPO (SAFE-GRPO), the first flow-based reinforcement learning framework for embodied navigation that explicitly rewards socially compliant behaviors. SocialNav achieves +38% success rate and +46% social compliance rate compared to the state-of-the-art method, demonstrating strong gains in both navigation performance and social compliance. Our project page: https://amap-eai.github.io/SocialNav/


翻译:遵循社会规范的具身导航仍是一个开放的研究挑战。本文提出的 \\textbf{SocialNav} 是一种用于社会意识导航的基础模型,采用分层“大脑-动作”架构,能够理解高层次的社会规范并生成低层次、符合社会要求的轨迹。为实现这种双重能力,我们构建了 SocNav 数据集,这是一个包含 700 万样本的大规模集合,由两部分组成:(1) 认知激活数据集,提供社会推理信号,如思维链解释和社会可通行性预测;(2) 专家轨迹金字塔,汇集了来自互联网视频、模拟环境和真实机器人的多样化导航演示。我们提出了一个多阶段训练流程,以逐步注入和优化导航智能:首先通过模仿学习将通用导航技能和社会规范理解注入模型,然后通过精心设计的基于社会意识的流探索 GRPO(SAFE-GRPO)来精炼这些技能,这是首个基于流的强化学习框架,专门用于具身导航,明确奖励符合社会规范的行为。与现有最先进方法相比,SocialNav 在成功率上提升了 38%,在社会合规率上提升了 46%,在导航性能和社会合规性方面均表现出显著优势。项目页面:https://amap-eai.github.io/SocialNav/

0
下载
关闭预览

相关内容

读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员