【MIT博士论文】数据高效强化学习，176页pdf - 专知VIP

会员服务 ·

44

强化学习 · 博士论文 · 麻省理工学院 (MIT) ·

2022 年 7 月 11 日

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习(Reinforcement learning, RL)是一种学习复杂决策策略的通用而强大的解决方案，为游戏和机器人等多个领域的近期成功提供了关键的基础。然而，许多最先进的算法需要大量的数据，计算成本很高，需要大量的数据才能成功。虽然这在某些情况下是可能的，例如在可用数据稀少的社会科学和医疗健康应用程序中，这自然会昂贵或不可行的。随着人们对将RL应用到更广泛的领域的兴趣的激增，对其算法设计中涉及的数据的使用形成一种明智的观点是势在必行的。

因此，本文主要从结构的角度研究RL的数据效率。沿着这个方向发展自然需要我们理解算法何时以及为什么会成功;并在此基础上进一步提高数据挖掘的数据效率。为此，本文首先从实证成功案例中汲取启示。我们考虑了基于模拟的蒙特卡洛树搜索(MCTS)在RL中的流行，以AlphaGo Zero的卓越成就为例，并探讨了纳入这一关键成分的数据效率。具体来说，我们研究了使用这种树结构来估计值和描述相应数据复杂性的正确形式。这些结果进一步使我们能够分析将MCTS与监督学习相结合的RL算法的数据复杂性，就像在AlphaGo Zero中所做的那样。

有了更好的理解之后，下一步，我们改进了基于模拟的数据高效RL算法的算法设计，这些算法可以访问生成模型。我们为有界空间和无界空间都提供了这样的改进。我们的第一个贡献是通过一个新颖的低秩表示Q函数的结构框架。提出的数据高效的RL算法利用低秩结构，通过一种新的矩阵估计技术，只查询/模拟状态-动作对的一个子集来执行伪探索。值得注意的是，这导致了数据复杂度的显著(指数级)提高。说到我们对无界空间的努力，我们必须首先解决无界域引起的独特的概念挑战。受经典排队系统的启发，我们提出了一个适当的稳定性概念来量化策略的“好”。随后，通过利用底层系统的稳定性结构，我们设计了高效、自适应的算法，采用改进的、高效的蒙特卡洛oracle，以良好的数据复杂度(对感兴趣的参数是多项式)保证了所需的稳定性。总之，通过新的分析工具和结构框架，本文有助于数据高效的RL算法的设计和分析。

https://dspace.mit.edu/handle/1721.1/138930

成为VIP会员查看完整内容

88

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

105+阅读 · 2022年9月1日

【MIT博士论文】优化理论与机器学习实践

【MIT博士论文】优化理论与机器学习实践

专知会员服务

94+阅读 · 2022年6月30日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

37+阅读 · 2021年9月7日

【斯坦福博士论文】深度学习医学图像解译，207页pdf

专知会员服务

107+阅读 · 2021年7月17日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

78+阅读 · 2021年5月23日

【斯坦福干货书】强化学习基金融领域应用，312页pdf

【斯坦福干货书】强化学习基金融领域应用，312页pdf

专知会员服务

134+阅读 · 2020年12月22日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知会员服务

279+阅读 · 2020年7月2日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知会员服务

233+阅读 · 2020年4月28日

【MIT博士论文】机器学习与因果关系:建立高效、可靠的决策模型，164页pdf

【MIT博士论文】机器学习与因果关系:建立高效、可靠的决策模型，164页pdf

专知

7+阅读 · 2022年7月10日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

34+阅读 · 2022年7月1日

【MIT博士论文】优化理论与机器学习实践

【MIT博士论文】优化理论与机器学习实践

专知

2+阅读 · 2022年6月30日

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

专知

7+阅读 · 2022年6月3日

MIT最新博士论文《用于个性化医疗和保险的新型机器学习算法》，350页pdf

MIT最新博士论文《用于个性化医疗和保险的新型机器学习算法》，350页pdf

专知

10+阅读 · 2022年5月2日

强化学习如何做数据分析？新加坡国立等最新TKDE2022《深度强化学习数据处理与分析》综述论文阐述DRL数据分析落地应用

强化学习如何做数据分析？新加坡国立等最新TKDE2022《深度强化学习数据处理与分析》综述论文阐述DRL数据分析落地应用

深度强化学习实验室

1+阅读 · 2022年4月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知

31+阅读 · 2020年4月28日

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

专知

30+阅读 · 2019年1月2日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于模糊逻辑的大规模强化学习理论及方法

国家自然科学基金

7+阅读 · 2014年12月31日

随机辛算法和多辛算法

国家自然科学基金

2+阅读 · 2014年12月31日

智能电网中ZigBee网络的实时拓扑优化和高效广播传输算法研究

国家自然科学基金

1+阅读 · 2013年12月31日

近似最优径向基函数插值的理论与算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

多天线无线通信系统的鲁棒性设计

国家自然科学基金

2+阅读 · 2012年12月31日

面向大规模数据的机器学习算法研究

国家自然科学基金

9+阅读 · 2011年12月31日

基于多Agent的通信交互式动态影响图研究及应用

国家自然科学基金

2+阅读 · 2009年12月31日

On the exponent of cyclic codes

Arxiv

0+阅读 · 2022年8月31日

Improving the Robustness of Reinforcement Learning Policies with $\mathcal{L}_{1}$ Adaptive Control

Arxiv

0+阅读 · 2022年8月29日

Online Learning via Offline Greedy Algorithms: Applications in Market Design and Optimization

Online Learning via Offline Greedy Algorithms: Applications in Market Design and Optimization

Arxiv

0+阅读 · 2022年8月29日

Universal Algorithms for Parity Games and Nested Fixpoints

Arxiv

0+阅读 · 2022年8月29日

What deep reinforcement learning tells us about human motor learning and vice-versa

Arxiv

0+阅读 · 2022年8月26日

Gaussian likelihood geometry of projective varieties

Arxiv

0+阅读 · 2022年8月26日

Visual processing in context of reinforcement learning

Arxiv

1+阅读 · 2022年8月26日

Adaptive Transfer Learning on Graph Neural Networks

Arxiv

14+阅读 · 2021年7月20日

Multi-Agent Cooperative Bidding Games for Multi-Objective Optimization in e-Commercial Sponsored Search

Arxiv

12+阅读 · 2021年6月8日

A Collective Learning Framework to Boost GNN Expressiveness

A Collective Learning Framework to Boost GNN Expressiveness

Arxiv

20+阅读 · 2020年3月26日

VIP会员

相关主题

麻省理工学院 (MIT)

相关VIP内容

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

105+阅读 · 2022年9月1日

【MIT博士论文】优化理论与机器学习实践

【MIT博士论文】优化理论与机器学习实践

专知会员服务

94+阅读 · 2022年6月30日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

37+阅读 · 2021年9月7日

【斯坦福博士论文】深度学习医学图像解译，207页pdf

专知会员服务

107+阅读 · 2021年7月17日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

78+阅读 · 2021年5月23日

【斯坦福干货书】强化学习基金融领域应用，312页pdf

【斯坦福干货书】强化学习基金融领域应用，312页pdf

专知会员服务

134+阅读 · 2020年12月22日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知会员服务

279+阅读 · 2020年7月2日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知会员服务

233+阅读 · 2020年4月28日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

【MIT博士论文】机器学习与因果关系:建立高效、可靠的决策模型，164页pdf

【MIT博士论文】机器学习与因果关系:建立高效、可靠的决策模型，164页pdf

专知

7+阅读 · 2022年7月10日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

34+阅读 · 2022年7月1日

【MIT博士论文】优化理论与机器学习实践

【MIT博士论文】优化理论与机器学习实践

专知

2+阅读 · 2022年6月30日

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

专知

7+阅读 · 2022年6月3日

MIT最新博士论文《用于个性化医疗和保险的新型机器学习算法》，350页pdf

MIT最新博士论文《用于个性化医疗和保险的新型机器学习算法》，350页pdf

专知

10+阅读 · 2022年5月2日

强化学习如何做数据分析？新加坡国立等最新TKDE2022《深度强化学习数据处理与分析》综述论文阐述DRL数据分析落地应用

强化学习如何做数据分析？新加坡国立等最新TKDE2022《深度强化学习数据处理与分析》综述论文阐述DRL数据分析落地应用

深度强化学习实验室

1+阅读 · 2022年4月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知

31+阅读 · 2020年4月28日

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

专知

30+阅读 · 2019年1月2日

相关基金

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于模糊逻辑的大规模强化学习理论及方法

国家自然科学基金

7+阅读 · 2014年12月31日

随机辛算法和多辛算法

国家自然科学基金

2+阅读 · 2014年12月31日

智能电网中ZigBee网络的实时拓扑优化和高效广播传输算法研究

国家自然科学基金

1+阅读 · 2013年12月31日

近似最优径向基函数插值的理论与算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

多天线无线通信系统的鲁棒性设计

国家自然科学基金

2+阅读 · 2012年12月31日

面向大规模数据的机器学习算法研究

国家自然科学基金

9+阅读 · 2011年12月31日

基于多Agent的通信交互式动态影响图研究及应用

国家自然科学基金

2+阅读 · 2009年12月31日

相关论文

On the exponent of cyclic codes

Arxiv

0+阅读 · 2022年8月31日

Improving the Robustness of Reinforcement Learning Policies with $\mathcal{L}_{1}$ Adaptive Control

Arxiv

0+阅读 · 2022年8月29日

Online Learning via Offline Greedy Algorithms: Applications in Market Design and Optimization

Online Learning via Offline Greedy Algorithms: Applications in Market Design and Optimization

Arxiv

0+阅读 · 2022年8月29日

Universal Algorithms for Parity Games and Nested Fixpoints

Arxiv

0+阅读 · 2022年8月29日

What deep reinforcement learning tells us about human motor learning and vice-versa

Arxiv

0+阅读 · 2022年8月26日

Gaussian likelihood geometry of projective varieties

Arxiv

0+阅读 · 2022年8月26日

Visual processing in context of reinforcement learning

Arxiv

1+阅读 · 2022年8月26日

Adaptive Transfer Learning on Graph Neural Networks

Arxiv

14+阅读 · 2021年7月20日

Multi-Agent Cooperative Bidding Games for Multi-Objective Optimization in e-Commercial Sponsored Search

Arxiv

12+阅读 · 2021年6月8日

A Collective Learning Framework to Boost GNN Expressiveness

A Collective Learning Framework to Boost GNN Expressiveness

Arxiv

20+阅读 · 2020年3月26日

微信扫码咨询专知VIP会员