【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf - 专知VIP

会员服务 ·

25

强化学习 · 牛津大学 (University of Oxford) · 博士论文 · 基于模型的强化学习 · 序列决策 ·

2023 年 4 月 7 日

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

许多目前自动化的顺序决策问题，例如制造业或推荐系统中的问题，都是在几乎没有不确定性或零灾难风险的环境中运行的。随着公司和研究人员试图在较少约束的环境中部署自主系统，赋予序列决策算法对不确定性和风险进行推理的能力变得越来越重要。在本文中，我们将讨论序列决策的规划和强化学习(RL)方法。在规划设置中，假设提供了一个环境模型，并在该模型中优化策略。强化学习依赖于广泛的随机探索，因此通常需要一个模拟器来进行训练。在现实世界的许多领域，不可能构建一个完全准确的模型或模拟器。因此，由于对环境的不完全了解，任何策略的执行都不可避免地具有不确定性。此外，在随机领域中，由于环境固有的随机性，任何给定运行的结果也是不确定的。这两种不确定性的来源通常分别被归类为认知的不确定性和偶然的不确定性。本文的首要目标是帮助开发算法，以减轻序列决策问题中的两种不确定性来源。

本文为这一目标做出了一些贡献，重点是基于模型的算法。本文从考虑马尔可夫决策过程(MDP)完全已知的最简单情况开始，提出了一种优化风险规避目标的方法，同时将优化期望值作为次要目标。对于本文的其余部分，我们不再假设MDP是完全指定的。考虑MDP上不确定性的几种不同表示，包括a)候选MDP的不确定性集合，b) MDP的先验分布，以及c)与MDP交互的固定数据集。在设置a)中，提出了一种新的方法来近似最小化最大遗憾目标，并在所有候选MDP中找到一个低次优的单一策略。在b)中，我们建议在贝叶斯自适应MDP中优化风险规避，以在单一框架下避免认知和偶然不确定性带来的风险。在c)中，离线强化学习设置，本文提出两种算法来克服由于只能访问固定数据集而产生的不确定性。第一种方法提出了一种可扩展的算法来解决离线强化学习的鲁棒MDP公式，第二种方法基于风险敏感优化。在最后一章中，我们考虑一种从演示中学习的交互式表述。在这个问题上，有必要对当前政策执行的不确定性进行推理，有选择地选择何时要求进行示威。实验证明，所提出的算法可以在许多不同的领域中产生风险敏感或鲁棒的行为。

成为VIP会员查看完整内容

44

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【剑桥大学博士论文】贝叶斯机器学习进展:从不确定性到决策，272页pdf

【剑桥大学博士论文】贝叶斯机器学习进展:从不确定性到决策，272页pdf

专知会员服务

82+阅读 · 2023年2月5日

【伯克利博士论文】可信赖机器学习，227页pdf

【伯克利博士论文】可信赖机器学习，227页pdf

专知会员服务

89+阅读 · 2022年12月12日

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

专知会员服务

66+阅读 · 2022年11月10日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知会员服务

78+阅读 · 2022年11月9日

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

专知会员服务

87+阅读 · 2022年10月16日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知会员服务

92+阅读 · 2022年9月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

105+阅读 · 2022年9月19日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

专知

5+阅读 · 2022年11月10日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知

9+阅读 · 2022年11月9日

【牛津大学博士论文】鲁棒神经网络:评估与构建

【牛津大学博士论文】鲁棒神经网络:评估与构建

专知

1+阅读 · 2022年10月23日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

专知

7+阅读 · 2022年10月16日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【硬核书】机器学习对抗鲁棒性，276页pdf

【硬核书】机器学习对抗鲁棒性，276页pdf

专知

8+阅读 · 2022年9月20日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

基于参数估计理论的信息检索风险研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向混合变量的蚁群优化方法及其在武器装备体系规划中的应用

国家自然科学基金

2+阅读 · 2013年12月31日

复杂产品装配工艺规划理论研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向城区综合环境的无人驾驶车辆关键技术研究及验证

国家自然科学基金

0+阅读 · 2013年12月31日

不确定性平衡优化理论及其应用

国家自然科学基金

1+阅读 · 2012年12月31日

考虑有限理性的供应链中断风险管理模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

低碳约束下电动汽车产业风险评估研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于风险测度的供应链鲁棒建模与策略研究

国家自然科学基金

2+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

21+阅读 · 2009年12月31日

面向装配规划的领域知识表示及推理研究

国家自然科学基金

0+阅读 · 2009年12月31日

Regularization and Variance-Weighted Regression Achieves Minimax Optimality in Linear MDPs: Theory and Practice

Arxiv

0+阅读 · 2023年5月22日

A Novel Framework for Improving the Breakdown Point of Robust Regression Algorithms

Arxiv

0+阅读 · 2023年5月20日

Pseudo-Label Training and Model Inertia in Neural Machine Translation

Arxiv

0+阅读 · 2023年5月19日

Smart Pressure e-Mat for Human Sleeping Posture and Dynamic Activity Recognition

Arxiv

0+阅读 · 2023年5月19日

Constrained Environment Optimization for Prioritized Multi-Agent Navigation

Arxiv

0+阅读 · 2023年5月18日

GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework

Arxiv

0+阅读 · 2023年5月18日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey of Meta-Reinforcement Learning

Arxiv

12+阅读 · 2023年1月19日

Deep Reinforcement Learning for Multi-Agent Interaction

Arxiv

46+阅读 · 2022年8月2日

Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI

Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI

Arxiv

77+阅读 · 2019年10月22日

VIP会员

相关主题

牛津大学 (University of Oxford)

基于模型的强化学习

相关VIP内容

【剑桥大学博士论文】贝叶斯机器学习进展:从不确定性到决策，272页pdf

【剑桥大学博士论文】贝叶斯机器学习进展:从不确定性到决策，272页pdf

专知会员服务

82+阅读 · 2023年2月5日

【伯克利博士论文】可信赖机器学习，227页pdf

【伯克利博士论文】可信赖机器学习，227页pdf

专知会员服务

89+阅读 · 2022年12月12日

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

专知会员服务

66+阅读 · 2022年11月10日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知会员服务

78+阅读 · 2022年11月9日

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

专知会员服务

87+阅读 · 2022年10月16日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知会员服务

92+阅读 · 2022年9月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

105+阅读 · 2022年9月19日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体强化学习：全景综述

《城市滨海地区：理解复杂多变环境下的指挥控制框架》50页报告

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

美空军“顶点2025”实验：推进AI在C2、动态目标锁定与联盟集成中的应用

相关资讯

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

专知

5+阅读 · 2022年11月10日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知

9+阅读 · 2022年11月9日

【牛津大学博士论文】鲁棒神经网络:评估与构建

【牛津大学博士论文】鲁棒神经网络:评估与构建

专知

1+阅读 · 2022年10月23日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

专知

7+阅读 · 2022年10月16日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【硬核书】机器学习对抗鲁棒性，276页pdf

【硬核书】机器学习对抗鲁棒性，276页pdf

专知

8+阅读 · 2022年9月20日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

相关基金

基于参数估计理论的信息检索风险研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向混合变量的蚁群优化方法及其在武器装备体系规划中的应用

国家自然科学基金

2+阅读 · 2013年12月31日

复杂产品装配工艺规划理论研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向城区综合环境的无人驾驶车辆关键技术研究及验证

国家自然科学基金

0+阅读 · 2013年12月31日

不确定性平衡优化理论及其应用

国家自然科学基金

1+阅读 · 2012年12月31日

考虑有限理性的供应链中断风险管理模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

低碳约束下电动汽车产业风险评估研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于风险测度的供应链鲁棒建模与策略研究

国家自然科学基金

2+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

21+阅读 · 2009年12月31日

面向装配规划的领域知识表示及推理研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Regularization and Variance-Weighted Regression Achieves Minimax Optimality in Linear MDPs: Theory and Practice

Arxiv

0+阅读 · 2023年5月22日

A Novel Framework for Improving the Breakdown Point of Robust Regression Algorithms

Arxiv

0+阅读 · 2023年5月20日

Pseudo-Label Training and Model Inertia in Neural Machine Translation

Arxiv

0+阅读 · 2023年5月19日

Smart Pressure e-Mat for Human Sleeping Posture and Dynamic Activity Recognition

Arxiv

0+阅读 · 2023年5月19日

Constrained Environment Optimization for Prioritized Multi-Agent Navigation

Arxiv

0+阅读 · 2023年5月18日

GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework

Arxiv

0+阅读 · 2023年5月18日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey of Meta-Reinforcement Learning

Arxiv

12+阅读 · 2023年1月19日

Deep Reinforcement Learning for Multi-Agent Interaction

Arxiv

46+阅读 · 2022年8月2日

Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI

Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI

Arxiv

77+阅读 · 2019年10月22日

微信扫码咨询专知VIP会员