The partially observable Markov decision process (POMDP) is a principled general framework for robot decision making under uncertainty, but POMDP planning suffers from high computational complexity, when long-term planning is required. While temporally-extended macro-actions help to cut down the effective planning horizon and significantly improve computational efficiency, how do we acquire good macro-actions? This paper proposes Macro-Action Generator-Critic (MAGIC), which performs offline learning of macro-actions optimized for online POMDP planning. Specifically, MAGIC learns a macro-action generator end-to-end, using an online planner's performance as the feedback. During online planning, the generator generates on the fly situation-aware macro-actions conditioned on the robot's belief and the environment context. We evaluated MAGIC on several long-horizon planning tasks both in simulation and on a real robot. The experimental results show that the learned macro-actions offer significant benefits in online planning performance, compared with primitive actions and handcrafted macro-actions.


翻译:部分可见的Markov 决策程序(POMDP)是一个在不确定情况下进行机器人决策的原则性总体框架,但是,在需要长期规划时,POMDP的规划具有很高的计算复杂性。虽然时间延伸的宏观行动有助于削减有效规划视野,显著提高计算效率,但我们如何获得良好的宏观行动?本文提议宏观行动发电机-cric (MAGIC), 用于在网上规划POMDP时最佳的宏观行动进行离线学习。 具体地说, MAGIC 学习宏观行动源端对端, 使用在线规划员的性能作为反馈。 在在线规划期间, 生成者在以机器人的信念和环境环境为条件的飞行状况( 觉察宏观行动) 上生成。 我们在模拟和真正的机器人上评估了MAGIC 的几项长方位规划任务。 实验结果显示, 与原始行动和手工的宏观行动相比, 所学的宏观行动在网上规划性能带来重大好处。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
【电子书推荐】Data Science with Python and Dask
专知会员服务
42+阅读 · 2019年6月1日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
实验室1篇论文被Transactions on SMC: Systems录用
inpluslab
6+阅读 · 2018年10月19日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Planning from video game descriptions
Arxiv
0+阅读 · 2021年9月1日
Arxiv
4+阅读 · 2021年4月13日
VIP会员
相关VIP内容
相关资讯
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
实验室1篇论文被Transactions on SMC: Systems录用
inpluslab
6+阅读 · 2018年10月19日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Top
微信扫码咨询专知VIP会员