We consider the problem of local planning in fixed-horizon and discounted Markov Decision Processes (MDPs) with linear function approximation and a generative model under the assumption that the optimal action-value function lies in the span of a feature map that is available to the planner. Previous work has left open the question of whether there exist sound planners that need only poly(H,d) queries regardless of the MDP, where H is the horizon and d is the dimensionality of the features. We answer this question in the negative: we show that any sound planner must query at least $\min(\exp({\Omega}(d)), {\Omega}(2^H))$ samples in the fized-horizon setting and $\exp({\Omega}(d))$ samples in the discounted setting. We also show that for any ${\delta}>0$, the least-squares value iteration algorithm with $O(H^5d^{H+1}/{\delta}^2)$ queries can compute a ${\delta}$-optimal policy in the fixed-horizon setting. We discuss implications and remaining open questions.


翻译:我们考虑了固定正数和折扣的Markov 决策程序(MDPs)的本地规划问题,该程序具有线性功能近似值和基因模型,假设最佳行动价值功能存在于可供计划者使用的地貌图范围内。以前的工作没有解决一个问题,即是否存在只需要多(H,d)查询的健全的规划者,而不论MDP,H是地平线,d是特征的维度。我们否定地回答这个问题:我们显示,任何健全的规划者必须至少查询美元(exmo(femega}(d))) 、 emega}(2(2) ) 美元,在Fizd-horizon 设置和 $\ exp(@Omega} (d) ) 在折扣环境中是否只有多(H,d) 查询,而H是地平线和 d是特征的维度。我们还表明,对于任何$(delta)0美元,最差值的 Iteration 算法值为$(H5d_H+1}/ delta ⁇ 2) 查询中至少可以计算出$xelta$-homon-imp-imprizet polist-resplest polist poli-s imp impesution impesution impesution impetions。

1
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
69+阅读 · 2020年5月5日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
已删除
将门创投
6+阅读 · 2017年7月6日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
69+阅读 · 2020年5月5日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
已删除
将门创投
6+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员