Planning safe and effective robot behavior in dynamic, human-centric environments remains a core challenge due to the need to handle multimodal uncertainty, adapt in real-time, and ensure safety. Optimization-based planners offer explicit constraint handling but performance relies on initialization quality. Learning-based planners better capture multimodal possible solutions but struggle to enforce constraints such as safety. In this paper, we introduce a unified generation-refinement framework bridging learning and optimization with a novel reward-guided conditional flow matching (CFM) model and model predictive path integral (MPPI) control. Our key innovation is in the incorporation of a bidirectional information exchange: samples from a reward-guided CFM model provide informed priors for MPPI refinement, while the optimal trajectory from MPPI warm-starts the next CFM generation. Using autonomous social navigation as a motivating application, we demonstrate that our approach can flexibly adapt to dynamic environments to satisfy safety requirements in real-time.


翻译:在动态、以人为中心的环境中规划安全有效的机器人行为仍是一个核心挑战,这源于需要处理多模态不确定性、实时适应并确保安全性。基于优化的规划器能够显式处理约束,但其性能依赖于初始化质量。基于学习的规划器能更好地捕捉多模态可能解,但在强制执行安全性等约束方面存在困难。本文提出一种统一生成-精化框架,通过新颖的奖励引导条件流匹配模型和模型预测路径积分控制,桥接学习与优化方法。我们的核心创新在于引入双向信息交换:来自奖励引导CFM模型的采样为MPPI精化提供信息先验,而MPPI的最优轨迹则用于热启动下一轮CFM生成。以自主社交导航作为激励性应用,我们证明该方法能灵活适应动态环境,实时满足安全性要求。

0
下载
关闭预览

相关内容

国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员