【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf - 专知VIP

会员服务 ·

35

强化学习 · 博士论文 ·

2023 年 8 月 12 日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习（RL）为基于学习的控制提供了一个形式化的框架。通过尝试学习能优化用户指定的奖励函数的行为策略，RL方法已经能够获得新颖的决策策略，即使在动态非常复杂，所有可能结果的空间巨大（例如，机器人操作、芯片地板规划）的情况下，这些策略也可以胜过最好的人类。但与标准机器学习（ML）在现实世界的应用相比，RL的适用性有限。为什么呢？RL的核心问题在于，它严重依赖于执行大量试错的主动数据收集来学习策略。不幸的是，在现实世界中，主动数据收集通常非常昂贵（例如，进行药物设计的实验室实验）和/或危险（例如，机器人在人们周围操作），且准确的模拟器很难构建。总的来说，这意味着，尽管RL具有广泛解锁现实世界决策问题中的ML的潜力，但我们无法通过当前的RL技术实现这一潜力。

为了实现RL的这种潜力，在这篇论文中，我们开发了一个旨在使用静态数据集经验学习策略的替代范式。这种“数据集驱动”的范式扩大了RL在存在历史数据集或可以通过特定领域策略收集的决策问题中的适用性。它还将现代有监督和无监督ML方法的可扩展性和可靠性带入了RL。话虽如此，实例化这一范式是具有挑战性的，因为它需要将从数据集中的静态学习与RL的传统主动性相协调，这导致了分布偏移、泛化和优化的挑战。在理论上和实证上理解这些挑战后，我们为应对这些挑战开发了算法思想，并讨论了几种扩展，将这些思想转化为实际方法，可以在大型和多样化的数据集上训练现代高容量神经网络函数逼近器。最后，我们展示了这些技术如何使我们能够为真实的机器人和视频游戏预训练通用策略，并实现快速高效的硬件加速器设计。

成为VIP会员查看完整内容

55

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【MIT博士论文】序列博弈中的近似最优学习, 338页pdf

【MIT博士论文】序列博弈中的近似最优学习, 338页pdf

专知会员服务

36+阅读 · 2023年8月31日

【伯克利博士论文】受约束的机器学习：算法与模型，153页pdf

【伯克利博士论文】受约束的机器学习：算法与模型，153页pdf

专知会员服务

53+阅读 · 2023年8月22日

【斯坦福博士论文】以数据为中心机器学习的理论与算法，209页pdf

【斯坦福博士论文】以数据为中心机器学习的理论与算法，209页pdf

专知会员服务

85+阅读 · 2023年7月17日

【牛津大学博士论文】神经网络中的核与特征学习，160页pdf

【牛津大学博士论文】神经网络中的核与特征学习，160页pdf

专知会员服务

64+阅读 · 2023年6月29日

【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

专知会员服务

53+阅读 · 2023年6月10日

【ETH博士论文】为降维、不规则采样序列和图的表示学习,199页pdf

【ETH博士论文】为降维、不规则采样序列和图的表示学习,199页pdf

专知会员服务

41+阅读 · 2023年5月25日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知会员服务

78+阅读 · 2022年11月9日

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

专知会员服务

40+阅读 · 2022年10月31日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知会员服务

56+阅读 · 2022年4月19日

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

专知

6+阅读 · 2022年11月21日

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

专知

6+阅读 · 2022年11月20日

【UFPE大学博士论文】基于熵损失的鲁棒深度学习，179页pdf

【UFPE大学博士论文】基于熵损失的鲁棒深度学习，179页pdf

专知

6+阅读 · 2022年11月11日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知

9+阅读 · 2022年11月9日

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

专知

6+阅读 · 2022年10月31日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

经典算法与神经网络如何结合？德国康斯坦茨大学Felix Petersen《可微算法学习》博士论文，162页pdf

经典算法与神经网络如何结合？德国康斯坦茨大学Felix Petersen《可微算法学习》博士论文，162页pdf

专知

1+阅读 · 2022年9月12日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

精神分裂症的多尺度动态功能连接研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

数据库驱动机会性频谱接入中的动态分区问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Understanding the limitations of self-supervised learning for tabular anomaly detection

Arxiv

0+阅读 · 2023年10月2日

FedZeN: Towards superlinear zeroth-order federated learning via incremental Hessian estimation

Arxiv

0+阅读 · 2023年9月29日

A parsimonious, computationally efficient machine learning method for spatial regression

Arxiv

0+阅读 · 2023年9月28日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

218+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

482+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

相关VIP内容

【MIT博士论文】序列博弈中的近似最优学习, 338页pdf

【MIT博士论文】序列博弈中的近似最优学习, 338页pdf

专知会员服务

36+阅读 · 2023年8月31日

【伯克利博士论文】受约束的机器学习：算法与模型，153页pdf

【伯克利博士论文】受约束的机器学习：算法与模型，153页pdf

专知会员服务

53+阅读 · 2023年8月22日

【斯坦福博士论文】以数据为中心机器学习的理论与算法，209页pdf

【斯坦福博士论文】以数据为中心机器学习的理论与算法，209页pdf

专知会员服务

85+阅读 · 2023年7月17日

【牛津大学博士论文】神经网络中的核与特征学习，160页pdf

【牛津大学博士论文】神经网络中的核与特征学习，160页pdf

专知会员服务

64+阅读 · 2023年6月29日

【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

专知会员服务

53+阅读 · 2023年6月10日

【ETH博士论文】为降维、不规则采样序列和图的表示学习,199页pdf

【ETH博士论文】为降维、不规则采样序列和图的表示学习,199页pdf

专知会员服务

41+阅读 · 2023年5月25日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知会员服务

78+阅读 · 2022年11月9日

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

专知会员服务

40+阅读 · 2022年10月31日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知会员服务

56+阅读 · 2022年4月19日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的检索与结构化增强生成综述

《实现多层防御多轮交战机制的扩展型随机齐射模型》2025年最新83页

【CMU博士论文】交互驱动的人体动作估计与生成

如何避免生成式人工智能在作战中失控失效

相关资讯

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

专知

6+阅读 · 2022年11月21日

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

专知

6+阅读 · 2022年11月20日

【UFPE大学博士论文】基于熵损失的鲁棒深度学习，179页pdf

【UFPE大学博士论文】基于熵损失的鲁棒深度学习，179页pdf

专知

6+阅读 · 2022年11月11日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知

9+阅读 · 2022年11月9日

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

专知

6+阅读 · 2022年10月31日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

经典算法与神经网络如何结合？德国康斯坦茨大学Felix Petersen《可微算法学习》博士论文，162页pdf

经典算法与神经网络如何结合？德国康斯坦茨大学Felix Petersen《可微算法学习》博士论文，162页pdf

专知

1+阅读 · 2022年9月12日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

相关基金

精神分裂症的多尺度动态功能连接研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

数据库驱动机会性频谱接入中的动态分区问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Understanding the limitations of self-supervised learning for tabular anomaly detection

Arxiv

0+阅读 · 2023年10月2日

FedZeN: Towards superlinear zeroth-order federated learning via incremental Hessian estimation

Arxiv

0+阅读 · 2023年9月29日

A parsimonious, computationally efficient machine learning method for spatial regression

Arxiv

0+阅读 · 2023年9月28日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

218+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

482+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员