Humanoid robots exhibit significant potential in executing diverse human-level skills. However, current research predominantly relies on data-driven approaches that necessitate extensive training datasets to achieve robust multimodal decision-making capabilities and generalizable visuomotor control. These methods raise concerns due to the neglect of geometric reasoning in unseen scenarios and the inefficient modeling of robot-target relationships within the training data, resulting in significant waste of training resources. To address these limitations, we present the Recurrent Geometric-prior Multimodal Policy (RGMP), an end-to-end framework that unifies geometric-semantic skill reasoning with data-efficient visuomotor control. For perception capabilities, we propose the Geometric-prior Skill Selector, which infuses geometric inductive biases into a vision language model, producing adaptive skill sequences for unseen scenes with minimal spatial common sense tuning. To achieve data-efficient robotic motion synthesis, we introduce the Adaptive Recursive Gaussian Network, which parameterizes robot-object interactions as a compact hierarchy of Gaussian processes that recursively encode multi-scale spatial relationships, yielding dexterous, data-efficient motion synthesis even from sparse demonstrations. Evaluated on both our humanoid robot and desktop dual-arm robot, the RGMP framework achieves 87% task success in generalization tests and exhibits 5x greater data efficiency than the state-of-the-art model. This performance underscores its superior cross-domain generalization, enabled by geometric-semantic reasoning and recursive-Gaussion adaptation.


翻译:人形机器人在执行多样化人类技能方面展现出巨大潜力。然而,当前研究主要依赖数据驱动方法,这些方法需要大量训练数据才能实现鲁棒的多模态决策能力和可泛化的视觉运动控制。由于忽视未知场景中的几何推理能力,且训练数据中机器人-目标关系的建模效率低下,这些方法造成了显著的训练资源浪费。为克服这些局限,我们提出了循环几何先验多模态策略(RGMP),这是一个将几何语义技能推理与数据高效的视觉运动控制相统一的端到端框架。在感知能力方面,我们提出了几何先验技能选择器,它将几何归纳偏置注入视觉语言模型,通过最小化的空间常识调整即可为未见场景生成自适应技能序列。为实现数据高效的机器人运动合成,我们引入了自适应递归高斯网络,该网络将机器人-物体交互参数化为高斯过程的紧凑层次结构,递归编码多尺度空间关系,即使从稀疏演示中也能实现灵巧且数据高效的运动合成。在人形机器人和桌面双臂机器人上的评估表明,RGMP框架在泛化测试中达到87%的任务成功率,并展现出比最先进模型高5倍的数据效率。这一性能凸显了其通过几何语义推理与递归高斯自适应实现的卓越跨域泛化能力。

0
下载
关闭预览

相关内容

国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员