部分观察的Markov决策过程中的非政策评价 (Off-Policy Evaluation in Partially Observed Markov Decision Processes) - 专知论文

会员服务 ·

0

部分可观测马尔可夫决策过程 · 混合时间 · 估计/估计量 · Processing（编程语言） · 平稳的 ·

2021 年 10 月 24 日

Off-Policy Evaluation in Partially Observed Markov Decision Processes

翻译：部分观察的Markov决策过程中的非政策评价

Yuchen Hu,Stefan Wager

We consider off-policy evaluation of dynamic treatment rules under the assumption that the underlying system can be modeled as a partially observed Markov decision process (POMDP). We propose an estimator, partial history importance weighting, and show that it can consistently estimate the stationary mean rewards of a target policy given long enough draws from the behavior policy. Furthermore, we establish an upper bound on its error that decays polynomially in the number of observations (i.e., the number of trajectories times their length), with an exponent that depends on the overlap of the target and behavior policies, and on the mixing time of the underlying system. We also establish a polynomial minimax lower bound for off-policy evaluation under the POMDP assumption, and show that its exponent has the same qualitative dependence on overlap and mixing time as obtained in our upper bound. Together, our upper and lower bounds imply that off-policy evaluation in POMDPs is strictly harder than off-policy evaluation in (fully observed) Markov decision processes, but strictly easier than model-free off-policy evaluation.

翻译：我们考虑对动态处理规则进行非政策性评估,前提是基础系统可以模拟为部分遵守的马尔科夫决策程序(POMDP ) 。我们提出一个估算器,部分历史重要性加权,并表明它能够一贯地估计目标政策的固定平均回报,从行为政策中抽取的时间足够长。此外,我们对其错误设定了一个上限,该错误在观测数量上多得多地衰减(即轨道长度是其长度的倍数 ), 其提示值取决于目标和行为政策的重叠, 以及基础系统的混合时间。我们还在POMDP的假设下为非政策评价设定了一个多边最低限值, 并表明其优先度对重叠和混合时间的质量依赖与我们上限值相同。我们的上限和下限加限意味着,在(完全观察的)马尔科夫决策过程中,对非政策评价的严格来说比非政策性评价难,但严格地说比无模式的离政策评价容易。

0

相关内容

部分可观测马尔可夫决策过程

部分可观测马尔可夫决策过程

【ICML2021】密度约束强化学习

专知会员服务

22+阅读 · 2021年6月26日

斯坦福最新《强化学习》2021课程，Emma Brunskill主讲，附PPT下载

斯坦福最新《强化学习》2021课程，Emma Brunskill主讲，附PPT下载

专知会员服务

76+阅读 · 2021年1月23日

强化学习算法与应用综述(中文版)， 13页pdf

专知会员服务

117+阅读 · 2020年12月17日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

53+阅读 · 2020年9月7日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

183+阅读 · 2020年2月1日

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

专知会员服务

41+阅读 · 2019年12月27日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

逆强化学习几篇论文笔记

逆强化学习几篇论文笔记

CreateAMind

9+阅读 · 2018年12月13日

【OpenAI】深度强化学习关键论文列表

【OpenAI】深度强化学习关键论文列表

专知

11+阅读 · 2018年11月10日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

强化学习初探 - 从多臂老虎机问题说起

强化学习初探 - 从多臂老虎机问题说起

专知

10+阅读 · 2018年4月3日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Estimating the characteristics of stochastic damping Hamiltonian systems from continuous observations

Arxiv

0+阅读 · 2021年12月20日

SIDE: State Inference for Partially Observable Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2021年12月20日

Hierarchical Representation Learning for Markov Decision Processes

Arxiv

0+阅读 · 2021年12月19日

Exploiting Expert-guided Symmetry Detection in Markov Decision Processes

Arxiv

0+阅读 · 2021年12月18日

Functional Linear Regression for Partially Observed Functional Data

Arxiv

0+阅读 · 2021年12月17日

Distillation of RL Policies with Formal Guarantees via Variational Abstraction of Markov Decision Processes (Technical Report)

Arxiv

0+阅读 · 2021年12月17日

Learning in Restless Bandits under Exogenous Global Markov Process

Arxiv

0+阅读 · 2021年12月17日

Learning Reward Machines: A Study in Partially Observable Reinforcement Learning

Arxiv

0+阅读 · 2021年12月17日

Policy Gradient Bayesian Robust Optimization for Imitation Learning

Arxiv

5+阅读 · 2021年6月11日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

VIP会员

文章信息

相关主题

部分可观测马尔可夫决策过程

估计/估计量

Processing（编程语言）

相关VIP内容

【ICML2021】密度约束强化学习

专知会员服务

22+阅读 · 2021年6月26日

斯坦福最新《强化学习》2021课程，Emma Brunskill主讲，附PPT下载

斯坦福最新《强化学习》2021课程，Emma Brunskill主讲，附PPT下载

专知会员服务

76+阅读 · 2021年1月23日

强化学习算法与应用综述(中文版)， 13页pdf

专知会员服务

117+阅读 · 2020年12月17日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

53+阅读 · 2020年9月7日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

183+阅读 · 2020年2月1日

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

专知会员服务

41+阅读 · 2019年12月27日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《多域作战要素：跨军事、工业、政府与学术领域先决条件再明确》最新报告

军事领域知识图谱构建方案及关键技术

中文版 | 美海军陆战队寻求应对无人机群威胁解决方案

《拥挤与受限环境下机器人集群协同控制》150页

相关资讯

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

逆强化学习几篇论文笔记

逆强化学习几篇论文笔记

CreateAMind

9+阅读 · 2018年12月13日

【OpenAI】深度强化学习关键论文列表

【OpenAI】深度强化学习关键论文列表

专知

11+阅读 · 2018年11月10日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

强化学习初探 - 从多臂老虎机问题说起

强化学习初探 - 从多臂老虎机问题说起

专知

10+阅读 · 2018年4月3日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Estimating the characteristics of stochastic damping Hamiltonian systems from continuous observations

Arxiv

0+阅读 · 2021年12月20日

SIDE: State Inference for Partially Observable Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2021年12月20日

Hierarchical Representation Learning for Markov Decision Processes

Arxiv

0+阅读 · 2021年12月19日

Exploiting Expert-guided Symmetry Detection in Markov Decision Processes

Arxiv

0+阅读 · 2021年12月18日

Functional Linear Regression for Partially Observed Functional Data

Arxiv

0+阅读 · 2021年12月17日

Distillation of RL Policies with Formal Guarantees via Variational Abstraction of Markov Decision Processes (Technical Report)

Arxiv

0+阅读 · 2021年12月17日

Learning in Restless Bandits under Exogenous Global Markov Process

Arxiv

0+阅读 · 2021年12月17日

Learning Reward Machines: A Study in Partially Observable Reinforcement Learning

Arxiv

0+阅读 · 2021年12月17日

Policy Gradient Bayesian Robust Optimization for Imitation Learning

Arxiv

5+阅读 · 2021年6月11日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

微信扫码咨询专知VIP会员