While data-driven imitation learning has revolutionized robotic manipulation, current approaches remain constrained by the scarcity of large-scale, diverse real-world demonstrations. Consequently, the ability of existing models to generalize across long-horizon bimanual tasks and mobile manipulation in unstructured environments remains limited. To bridge this gap, we present RoboMIND 2.0, a comprehensive real-world dataset comprising over 310K dual-arm manipulation trajectories collected across six distinct robot embodiments and 739 complex tasks. Crucially, to support research in contact-rich and spatially extended tasks, the dataset incorporates 12K tactile-enhanced episodes and 20K mobile manipulation trajectories. Complementing this physical data, we construct high-fidelity digital twins of our real-world environments, releasing an additional 20K-trajectory simulated dataset to facilitate robust sim-to-real transfer. To fully exploit the potential of RoboMIND 2.0, we propose MIND-2 system, a hierarchical dual-system frame-work optimized via offline reinforcement learning. MIND-2 integrates a high-level semantic planner (MIND-2-VLM) to decompose abstract natural language instructions into grounded subgoals, coupled with a low-level Vision-Language-Action executor (MIND-2-VLA), which generates precise, proprioception-aware motor actions.


翻译:尽管数据驱动的模仿学习已经革新了机器人操作领域,但当前方法仍受限于大规模、多样化真实世界演示数据的稀缺。因此,现有模型在非结构化环境中执行长时程双手任务和移动操作方面的泛化能力仍然有限。为弥合这一差距,我们提出了RoboMIND 2.0,这是一个全面的真实世界数据集,包含在六种不同机器人本体上收集的超过31万条双臂操作轨迹,涵盖739项复杂任务。至关重要的是,为支持接触密集型和空间扩展型任务的研究,该数据集包含了1.2万条触觉增强片段和2万条移动操作轨迹。作为这些物理数据的补充,我们构建了真实世界环境的高保真数字孪生,并额外发布了一个包含2万条轨迹的模拟数据集,以促进鲁棒的仿真到现实迁移。为充分挖掘RoboMIND 2.0的潜力,我们提出了MIND-2系统,这是一个通过离线强化学习优化的分层双系统框架。MIND-2集成了一个高层语义规划器(MIND-2-VLM),用于将抽象的自然语言指令分解为具体化的子目标,并与一个低层视觉-语言-动作执行器(MIND-2-VLA)相结合,后者生成精确且具有本体感知的运动动作。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员