Policy Gradients for Probabilistic Constrained Reinforcement Learning (Policy Gradients for Probabilistic Constrained Reinforcement Learning) - 专知论文

会员服务 ·

0

概率 · 约束 · 概率约束 · 梯度 · 强化学习 ·

2023 年 4 月 18 日

Policy Gradients for Probabilistic Constrained Reinforcement Learning

翻译：Policy Gradients for Probabilistic Constrained Reinforcement Learning

Weiqin Chen,Dharmashankar Subramanian,Santiago Paternain

This paper considers the problem of learning safe policies in the context of reinforcement learning (RL). In particular, we consider the notion of probabilistic safety. This is, we aim to design policies that maintain the state of the system in a safe set with high probability. This notion differs from cumulative constraints often considered in the literature. The challenge of working with probabilistic safety is the lack of expressions for their gradients. Indeed, policy optimization algorithms rely on gradients of the objective function and the constraints. To the best of our knowledge, this work is the first one providing such explicit gradient expressions for probabilistic constraints. It is worth noting that the gradient of this family of constraints can be applied to various policy-based algorithms. We demonstrate empirically that it is possible to handle probabilistic constraints in a continuous navigation problem.

翻译：---- 针对强化学习（RL）中学习安全策略的问题展开研究，本文特别考虑了概率安全的概念。也就是说，我们旨在设计在高概率下将系统状态维持在安全集合中的策略。这种概率安全的概念与文献中常考虑的累积约束不同。处理概率安全的挑战在于缺乏它们的梯度表达式。事实上，政策优化算法依赖于目标函数和约束的梯度。据我们所知，本文是首篇提供此类概率约束明确梯度表达式的工作。值得注意的是，这种约束的梯度适用于各种基于策略的算法。我们通过实证研究证明，在连续导航问题中处理概率约束是可行的。

0

相关内容

本话题关于日常用语「概率」，用于讨论生活中的运气、机会，及赌博、彩票、游戏中的「技巧」。关于抽象数学概念「概率」的讨论，请转概率（数学）话题。

【2022新书】强化学习工业应用，408页pdf

【2022新书】强化学习工业应用，408页pdf

专知会员服务

231+阅读 · 2022年2月3日

机器学习组合优化

机器学习组合优化

专知会员服务

110+阅读 · 2021年2月16日

哥伦比亚大学最新《机器学习》课程，Fall-B 2020 (Machine Learning)

专知会员服务

39+阅读 · 2020年11月3日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【KDD2019|讲座推荐】深强化学习及其在交通运输中的应用：Deep Reinforcement Learning with Applications in Transportation

【KDD2019|讲座推荐】深强化学习及其在交通运输中的应用：Deep Reinforcement Learning with Applications in Transportation

专知会员服务

57+阅读 · 2019年12月4日

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

专知会员服务

246+阅读 · 2019年10月21日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

专知会员服务

65+阅读 · 2019年8月8日

局部学习的特征选择：Local-Learning-Based Feature Selection

局部学习的特征选择：Local-Learning-Based Feature Selection

我爱读PAMI

14+阅读 · 2019年9月20日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

SiC/Ti基复合材料C/Mo双涂层界面改性机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

受时变对流扩散方程约束的最优控制问题的SUPG方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

实时安全关键系统的建模、仿真与验证

国家自然科学基金

1+阅读 · 2012年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

社会计算问题与逆变分不等式求解

国家自然科学基金

0+阅读 · 2009年12月31日

强激光与多电子原子的相互作用研究

国家自然科学基金

0+阅读 · 2009年12月31日

超声辅助激光钎焊TiNi形状记忆合金界面反应机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于无冲突集的约束Job Shop调度优化算法

国家自然科学基金

1+阅读 · 2009年12月31日

复杂条件下城市轨道交通调度理论与方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Learning Meta Representations for Agents in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2023年6月5日

Variance-reduced Clipping for Non-convex Optimization

Arxiv

0+阅读 · 2023年6月2日

Context-Aware Bayesian Network Actor-Critic Methods for Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2023年6月2日

ThinkSum: Probabilistic reasoning over sets using large language models

Arxiv

0+阅读 · 2023年6月2日

One Risk to Rule Them All: Addressing Distributional Shift in Offline Reinforcement Learning via Risk-Aversion

Arxiv

0+阅读 · 2023年6月2日

Policy Optimization for Continuous Reinforcement Learning

Arxiv

0+阅读 · 2023年6月1日

A Survey on Causal Reinforcement Learning

Arxiv

0+阅读 · 2023年6月1日

Identifiability and Generalizability in Constrained Inverse Reinforcement Learning

Arxiv

2+阅读 · 2023年6月1日

Safe Offline Reinforcement Learning with Real-Time Budget Constraints

Arxiv

0+阅读 · 2023年6月1日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

VIP会员

文章信息

相关主题

相关VIP内容

【2022新书】强化学习工业应用，408页pdf

【2022新书】强化学习工业应用，408页pdf

专知会员服务

231+阅读 · 2022年2月3日

机器学习组合优化

机器学习组合优化

专知会员服务

110+阅读 · 2021年2月16日

哥伦比亚大学最新《机器学习》课程，Fall-B 2020 (Machine Learning)

专知会员服务

39+阅读 · 2020年11月3日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【KDD2019|讲座推荐】深强化学习及其在交通运输中的应用：Deep Reinforcement Learning with Applications in Transportation

【KDD2019|讲座推荐】深强化学习及其在交通运输中的应用：Deep Reinforcement Learning with Applications in Transportation

专知会员服务

57+阅读 · 2019年12月4日

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

专知会员服务

246+阅读 · 2019年10月21日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

专知会员服务

65+阅读 · 2019年8月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【AAAI2026】Align3GR：面向 LLM 生成式推荐的统一多层次对齐方法

多智能体强化学习中的稳健且高效的通信

【博士论文】通过判别式与生成式学习方法推进 3D场景理解

DeepSeek 实践：大模型部署、微调与应用

相关资讯

局部学习的特征选择：Local-Learning-Based Feature Selection

局部学习的特征选择：Local-Learning-Based Feature Selection

我爱读PAMI

14+阅读 · 2019年9月20日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

相关论文

Learning Meta Representations for Agents in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2023年6月5日

Variance-reduced Clipping for Non-convex Optimization

Arxiv

0+阅读 · 2023年6月2日

Context-Aware Bayesian Network Actor-Critic Methods for Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2023年6月2日

ThinkSum: Probabilistic reasoning over sets using large language models

Arxiv

0+阅读 · 2023年6月2日

One Risk to Rule Them All: Addressing Distributional Shift in Offline Reinforcement Learning via Risk-Aversion

Arxiv

0+阅读 · 2023年6月2日

Policy Optimization for Continuous Reinforcement Learning

Arxiv

0+阅读 · 2023年6月1日

A Survey on Causal Reinforcement Learning

Arxiv

0+阅读 · 2023年6月1日

Identifiability and Generalizability in Constrained Inverse Reinforcement Learning

Arxiv

2+阅读 · 2023年6月1日

Safe Offline Reinforcement Learning with Real-Time Budget Constraints

Arxiv

0+阅读 · 2023年6月1日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

相关基金

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

SiC/Ti基复合材料C/Mo双涂层界面改性机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

受时变对流扩散方程约束的最优控制问题的SUPG方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

实时安全关键系统的建模、仿真与验证

国家自然科学基金

1+阅读 · 2012年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

社会计算问题与逆变分不等式求解

国家自然科学基金

0+阅读 · 2009年12月31日

强激光与多电子原子的相互作用研究

国家自然科学基金

0+阅读 · 2009年12月31日

超声辅助激光钎焊TiNi形状记忆合金界面反应机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于无冲突集的约束Job Shop调度优化算法

国家自然科学基金

1+阅读 · 2009年12月31日

复杂条件下城市轨道交通调度理论与方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员