项目名称: 基于重要性采样的并行离策略强化学习方法研究

项目编号: No.61502329

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 其他

项目作者: 傅启明

作者单位: 苏州科技大学

项目金额: 21万元

中文摘要: 近年来,离策略强化学习方法逐渐成为强化学习领域的一个研究热点。相对于在策略强化学习方法,从理论分析的角度,离策略方法的收敛性分析更为复杂,然而从实际应用的角度,离策略方法的研究将极大推动强化学习在实践中的应用。本项目主要围绕近似离策略强化学习理论及应用展开研究,工作主要分为以下四个方面:1)利用带权重要性采样方法构建可用于处理离策略样本数据的值函数参数更新规则,提出一种基于带权重要性采样的离策略强化学习算法;2)从理论上证明所提出参数更新规则能够保证离策略评估与在策略评估的一致性;3)结合所提出的离策略强化学习算法,构建一种可用于实时控制的并行离策略强化学习框架;4)将所提出的并行离策略强化学习框架用于实际的建筑节能问题,求解最优节能策略,实现建筑内相关设备的实时在线控制。因此,通过上述研究,将在一定程度上促进强化学习理论的发展,同时有效地解决离策略强化学习方法在实践中的应用难题。

中文关键词: 强化学习;离策略;重要性采样;函数近似

英文摘要: Recently, off-policy reinforcement learning has been a focus in reinforcement learning field. In contrast to the on-policy reinforcement learning, from the perspective of the theory, the convergence analysis of off-policy reinforcement learning methods is more complicated, but for the application, the research of off-policy reinforcement learning methods will promote the application of reinforcement learning greatly in practice. The project focuses on the research about the theory and application of approximate off-policy reinforcement learning, which mainly can be divided into the following four parts: 1) combined with the weighted importance sampling method, construct a novel parameter update rule under off-policy case and propose the off-policy reinforcement learning algorithm; 2) prove the consistence of parameter update rule under the on-policy case and off-policy case theoretically; 3) Based on the proposed off-policy reinforcement learning algorithm, construct a parallel off-policy reinforcement learning framework for real-time control problems; 4) apply the proposed parallel off-policy reinforcement learning framework to the construction conservation problem, seek the optimal policy and control the related equipments of the building online and in real time. Therefore, the above researches will promote the development of reinforcement learning theory to a certain extent and solve the application difficulties of off-policy reinforcement learning in practice efficiently.

英文关键词: Reinforcement Learning;Off Policy;Importance Sampling;Function Approximation

成为VIP会员查看完整内容
19

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【2022新书】强化学习工业应用,408页pdf
专知会员服务
220+阅读 · 2022年2月3日
【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
32+阅读 · 2022年1月31日
基于强化学习的推荐研究综述
专知会员服务
79+阅读 · 2021年10月21日
专知会员服务
53+阅读 · 2021年9月18日
专知会员服务
126+阅读 · 2021年2月17日
专知会员服务
100+阅读 · 2021年1月1日
《强化学习》简介小册,24页pdf
专知会员服务
261+阅读 · 2020年4月19日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
我的天,强化学习还能用在自动驾驶领域?
夕小瑶的卖萌屋
1+阅读 · 2022年3月24日
【2022新书】强化学习工业应用
专知
15+阅读 · 2022年2月3日
深入理解强化学习,看这篇就够了
PaperWeekly
5+阅读 · 2021年11月28日
【强化学习】强化学习+深度学习=人工智能
产业智能官
51+阅读 · 2017年8月11日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Automated Data Augmentations for Graph Classification
Arxiv
12+阅读 · 2020年6月20日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
11+阅读 · 2018年4月25日
小贴士
相关VIP内容
【2022新书】强化学习工业应用,408页pdf
专知会员服务
220+阅读 · 2022年2月3日
【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
32+阅读 · 2022年1月31日
基于强化学习的推荐研究综述
专知会员服务
79+阅读 · 2021年10月21日
专知会员服务
53+阅读 · 2021年9月18日
专知会员服务
126+阅读 · 2021年2月17日
专知会员服务
100+阅读 · 2021年1月1日
《强化学习》简介小册,24页pdf
专知会员服务
261+阅读 · 2020年4月19日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
相关资讯
我的天,强化学习还能用在自动驾驶领域?
夕小瑶的卖萌屋
1+阅读 · 2022年3月24日
【2022新书】强化学习工业应用
专知
15+阅读 · 2022年2月3日
深入理解强化学习,看这篇就够了
PaperWeekly
5+阅读 · 2021年11月28日
【强化学习】强化学习+深度学习=人工智能
产业智能官
51+阅读 · 2017年8月11日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员