Reinforcement learning algorithms can solve dynamic decision-making and optimal control problems. With continuous-valued state and input variables, reinforcement learning algorithms must rely on function approximators to represent the value function and policy mappings. Commonly used numerical approximators, such as neural networks or basis function expansions, have two main drawbacks: they are black-box models offering little insight into the mappings learned, and they require extensive trial and error tuning of their hyper-parameters. In this paper, we propose a new approach to constructing smooth value functions in the form of analytic expressions by using symbolic regression. We introduce three off-line methods for finding value functions based on a state-transition model: symbolic value iteration, symbolic policy iteration, and a direct solution of the Bellman equation. The methods are illustrated on four nonlinear control problems: velocity control under friction, one-link and two-link pendulum swing-up, and magnetic manipulation. The results show that the value functions yield well-performing policies and are compact, mathematically tractable, and easy to plug into other algorithms. This makes them potentially suitable for further analysis of the closed-loop system. A comparison with an alternative approach using neural networks shows that our method outperforms the neural network-based one.


翻译:强化学习算法可以解决动态决策和最佳控制问题。有了持续估值的状态变量和投入变量,强化学习算法必须依靠功能匹配器来代表价值函数和政策映射。常用的数字匹配器,如神经网络或基础函数扩展,有两个主要的缺点:它们是黑箱模型,对所学的绘图没有多少洞察力,需要对其超参数进行广泛的试验和差错调整。在本文件中,我们提出一种新的方法,通过使用符号回归,以解析表达形式构建平稳的值函数。我们采用三种离线方法,以国家过渡模式为基础寻找价值函数:象征性价值重复、象征性政策重复和直接解决贝尔曼方程式。这些方法用四个非线性控制问题来说明:摩擦下的速度控制、一连线和双连线的曲率波动和磁力操纵。结果显示,这些价值函数产生更精确、更精确、可数学可伸缩和易于插入其他 NURAL 方法。这个方法与一个封闭的网络进行了适当的分析。这个方法显示它们与一个封闭的网络进行适合。

0
下载
关闭预览

相关内容

可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
128+阅读 · 2020年5月14日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
多目标的强化学习教程
CreateAMind
4+阅读 · 2018年1月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2022年1月13日
Arxiv
7+阅读 · 2021年10月19日
Arxiv
8+阅读 · 2021年5月21日
Arxiv
4+阅读 · 2020年3月19日
Arxiv
17+阅读 · 2019年3月28日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
7+阅读 · 2018年12月26日
VIP会员
相关资讯
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
多目标的强化学习教程
CreateAMind
4+阅读 · 2018年1月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2022年1月13日
Arxiv
7+阅读 · 2021年10月19日
Arxiv
8+阅读 · 2021年5月21日
Arxiv
4+阅读 · 2020年3月19日
Arxiv
17+阅读 · 2019年3月28日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
7+阅读 · 2018年12月26日
Top
微信扫码咨询专知VIP会员