When learning policies for robot control, the required real-world data is typically prohibitively expensive to acquire, so learning in simulation is a popular strategy. Unfortunately, such polices are often not transferable to the real world due to a mismatch between the simulation and reality, called 'reality gap'. Domain randomization methods tackle this problem by randomizing the physics simulator (source domain) during training according to a distribution over domain parameters in order to obtain more robust policies that are able to overcome the reality gap. Most domain randomization approaches sample the domain parameters from a fixed distribution. This solution is suboptimal in the context of sim-to-real transferability, since it yields policies that have been trained without explicitly optimizing for the reward on the real system (target domain). Additionally, a fixed distribution assumes there is prior knowledge about the uncertainty over the domain parameters. In this paper, we propose Bayesian Domain Randomization (BayRn), a black-box sim-to-real algorithm that solves tasks efficiently by adapting the domain parameter distribution during learning given sparse data from the real-world target domain. BayRn uses Bayesian optimization to search the space of source domain distribution parameters such that this leads to a policy which maximizes the real-word objective, allowing for adaptive distributions during policy optimization. We experimentally validate the proposed approach in sim-to-sim as well as in sim-to-real experiments, comparing against three baseline methods on two robotic tasks. Our results show that BayRn is able to perform sim-to-real transfer, while significantly reducing the required prior knowledge.


翻译:当学习机器人控制的政策时,所需要的真实世界数据通常非常昂贵,难以获取,因此模拟学习是一种受欢迎的策略。不幸的是,由于模拟和现实(称为“现实差距”)之间的不匹配,这种策略往往不能转移到真实世界。在培训期间,根据域参数的分布对物理模拟器(源域)进行随机排序,以便获得能够克服现实差距的更稳健的政策,大多数域随机化方法从固定分布中抽取域参数。在模拟到真实可转移的背景下,这种解决方案并不理想,因为由于模拟和现实(称为“现实差距 ” ) 之间的不匹配,这种政策往往不会被转移到真实世界。此外,一个固定随机化方法的假设是事先了解域参数的不确定性。在这个文件中,我们建议Bayesian Domain 随机化(BayRn), 一种黑箱模拟到真实的算法,在学习来自真实世界目标域域的稀疏数据时,可以有效地解决域参数分布问题。BayRn使用一种经过培训的政策, 将真实的比对真实政策进行最优化, 从而在搜索前空间域域域域域的排序中, 显示我们最精确的定位, 最精确的校正的排序, 。

0
下载
关闭预览

相关内容

专知会员服务
17+阅读 · 2020年9月6日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2020年12月3日
Arxiv
0+阅读 · 2020年11月30日
Arxiv
7+阅读 · 2018年12月26日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员