项目名称: 针对大规模环境下复杂任务的策略搜索强化学习方法研究

项目编号: No.61502339

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 其他

项目作者: 赵婷婷

作者单位: 天津科技大学

项目金额: 20万元

中文摘要: 强化学习是机器学习领域中解决连续决策问题的重要学习方法,研究智能体如何在未知环境中做出决策以获得最大累积回报。策略搜索是强化学习领域中解决连续动作空间的决策问题最为灵活有效的方法之一。然而,针对大规模环境下复杂任务,现有策略搜索方法存在以下局限:①受限于手工特征设计,难以显式描述高维复杂状态变量;②受限于针对指定任务的专门策略模型,难以表达复杂任务的策略;③受限目标函数的非凸性,难以寻找全局最优策略解。为了解决上述问题,本课题拟构建一套面向大规模环境下复杂任务的策略搜索强化学习研究方案。具体内容包括:①大规模环境下状态变量的自主表达;②强泛化能力的深度策略模型;③面向全局最优解的引导型策略搜索算法。通过整合上述新技术,提出一套完整的适用于大规模环境下复杂任务的强化学习方案,为实际应用中的智能控制问题提供理论依据与技术指导,并为下一步深入研究打下基础。

中文关键词: 强化学习;策略搜索;状态表示;深度策略模型;引导型样本

英文摘要: Reinforcement learning (RL), which studies how an agent ought to act in an unknown environment so as to maximize the cumulative rewards, is a powerful machine learning paradigm for sequential decision making. The policy search approach is a flexible and powerful reinforcement learning method particularly for control problems with continuous actions spaces...However, previous policy search approaches are problematic to solving complex control tasks in the large-scale environment, the limitations are shown as follows: ① The state representation relies on hand-crafted features, which is limited when the expert knowledge is not enough facing high-dimensional complex states spaces; ② Before application of policy search methods require specified, low-dimensional policy model, which limits the generality of policy facing general complex tasks; ③ By their nature, complex tasks presents a considerable number of local optima, thus a poor local optima might be a big issue. In order to solve the above mentioned problems, we propose a novel policy search framework for complex control tasks in large scale environments. More specifically, we combine the following three new ideas and give a highly practical and efficient policy search framework: ① Constructing deep neural networks for automatic representation of the state directly from the high-dimensional sensory input in large-scale environments; ② Exploring recurrent and deep architectures for complex policy with high generality; ③ Design guided samples for policy search to direct policy learning and avoid poor local optima. ..Finally, we get a novel reinforcement learning architecture for complex tasks in large-scale environments. This research provides key techniques for robot control in the real-world problems,and also sets solid foundation for our further research.

英文关键词: Reinforcement Learning;Policy Search;State Representation;Deep Policy Model;Guided Sample

成为VIP会员查看完整内容
36

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
强化学习可解释性基础问题探索和方法综述
专知会员服务
85+阅读 · 2022年1月16日
专知会员服务
53+阅读 · 2021年9月18日
专知会员服务
125+阅读 · 2021年3月13日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
多智能体深度强化学习的若干关键科学问题
专知会员服务
174+阅读 · 2020年5月24日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
【2022新书】强化学习工业应用
专知
15+阅读 · 2022年2月3日
「强化学习可解释性」最新2022综述
深度强化学习实验室
3+阅读 · 2022年1月17日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
技术 | 强化学习入门以及代码实现
AI100
51+阅读 · 2017年8月26日
【强化学习】强化学习+深度学习=人工智能
产业智能官
52+阅读 · 2017年8月11日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
64+阅读 · 2022年4月13日
Arxiv
11+阅读 · 2021年3月25日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
22+阅读 · 2018年8月30日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
11+阅读 · 2018年4月25日
小贴士
相关VIP内容
强化学习可解释性基础问题探索和方法综述
专知会员服务
85+阅读 · 2022年1月16日
专知会员服务
53+阅读 · 2021年9月18日
专知会员服务
125+阅读 · 2021年3月13日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
多智能体深度强化学习的若干关键科学问题
专知会员服务
174+阅读 · 2020年5月24日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
相关资讯
【2022新书】强化学习工业应用
专知
15+阅读 · 2022年2月3日
「强化学习可解释性」最新2022综述
深度强化学习实验室
3+阅读 · 2022年1月17日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
技术 | 强化学习入门以及代码实现
AI100
51+阅读 · 2017年8月26日
【强化学习】强化学习+深度学习=人工智能
产业智能官
52+阅读 · 2017年8月11日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
相关论文
Arxiv
64+阅读 · 2022年4月13日
Arxiv
11+阅读 · 2021年3月25日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
22+阅读 · 2018年8月30日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
11+阅读 · 2018年4月25日
微信扫码咨询专知VIP会员