利用确定性抽样和合用同一地点直接优化政策 (Direct Policy Optimization using Deterministic Sampling and Collocation) - 专知论文

会员服务 ·

0

优化器 · 有向 · 最优化 · 拟牛顿法 · Performer ·

2021 年 1 月 14 日

Direct Policy Optimization using Deterministic Sampling and Collocation

翻译：利用确定性抽样和合用同一地点直接优化政策

Taylor A. Howell,Chunjiang Fu,Zachary Manchester

from arxiv, revisions for RA-L 2021

We present an approach for approximately solving discrete-time stochastic optimal-control problems by combining direct trajectory optimization, deterministic sampling, and policy optimization. Our feedback motion-planning algorithm uses a quasi-Newton method to simultaneously optimize a reference trajectory, a set of deterministically chosen sample trajectories, and a parameterized policy. We demonstrate that this approach exactly recovers LQR policies in the case of linear dynamics, quadratic objective, and Gaussian disturbances. We also demonstrate the algorithm on several nonlinear, underactuated robotic systems to highlight its performance and ability to handle control limits, safely avoid obstacles, and generate robust plans in the presence of unmodeled dynamics.

翻译：我们提出了一个方法,通过将直接轨迹优化、确定性抽样和政策优化结合起来,解决离散时间随机最佳控制问题。我们的反馈运动规划算法使用准牛顿方法,同时优化参考轨迹、一组确定性选择的样本轨迹和参数化政策。我们证明,这种方法完全恢复了线性动态、四轨目标和高斯扰动情况下的LQR政策。我们还展示了几个非线性、低活性机器人系统的算法,以突出其处理控制限度的性能和能力,安全避免障碍,并在非模型化动态下制定强有力的计划。

0

相关内容

优化器

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

54+阅读 · 2020年9月7日

【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】

【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】

专知会员服务

27+阅读 · 2020年8月6日

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

专知会员服务

250+阅读 · 2020年5月18日

【ACL2020】对抗性文本生成，Improving Adversarial Text Generation

专知会员服务

52+阅读 · 2020年5月5日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【新书】Python编程基础，669页pdf

【新书】Python编程基础，669页pdf

专知会员服务

197+阅读 · 2019年10月10日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

19篇ICML2019论文摘录选读！

19篇ICML2019论文摘录选读！

专知

28+阅读 · 2019年4月28日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

【泡泡一分钟】基于机器人的视觉惯性里程计（IROS2018-10）

【泡泡一分钟】基于机器人的视觉惯性里程计（IROS2018-10）

泡泡机器人SLAM

13+阅读 · 2019年1月3日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

【泡泡一分钟】用于平面环境的线性RGBD-SLAM

【泡泡一分钟】用于平面环境的线性RGBD-SLAM

泡泡机器人SLAM

6+阅读 · 2018年12月18日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【泡泡一分钟】把目标跟踪看作为在线决策过程--用强化学习在视频流中学习策略(ICCV2017-31)

【泡泡一分钟】把目标跟踪看作为在线决策过程--用强化学习在视频流中学习策略(ICCV2017-31)

泡泡机器人SLAM

3+阅读 · 2018年6月5日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

Centralized Cooperation for Connected and Automated Vehicles at Intersections by Proximal Policy Optimization

Arxiv

0+阅读 · 2021年3月11日

Advancing Trajectory Optimization with Approximate Inference: Exploration, Covariance Control and Adaptive Risk

Arxiv

0+阅读 · 2021年3月10日

Maximum Entropy RL (Provably) Solves Some Robust RL Problems

Arxiv

0+阅读 · 2021年3月10日

Active Exploration and Mapping via Iterative Covariance Regulation over Continuous $SE(3)$ Trajectories

Arxiv

0+阅读 · 2021年3月10日

Monotonic Alpha-divergence Minimisation

Arxiv

0+阅读 · 2021年3月9日

Risk-Averse RRT* Planning with Nonlinear Steering and Tracking Controllers for Nonlinear Robotic Systems Under Uncertainty

Arxiv

0+阅读 · 2021年3月9日

Combining Gaussian processes and polynomial chaos expansions for stochastic nonlinear model predictive control

Arxiv

0+阅读 · 2021年3月9日

Preserving general physical properties in model reduction of dynamical systems via constrained-optimization projection

Arxiv

0+阅读 · 2021年3月9日

Bipedal Walking Robot using Deep Deterministic Policy Gradient

Bipedal Walking Robot using Deep Deterministic Policy Gradient

Arxiv

3+阅读 · 2018年7月16日

Reinforcement Learning for Solving the Vehicle Routing Problem

Arxiv

3+阅读 · 2018年5月21日

VIP会员

文章信息

相关主题

相关VIP内容

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

54+阅读 · 2020年9月7日

【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】

【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】

专知会员服务

27+阅读 · 2020年8月6日

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

专知会员服务

250+阅读 · 2020年5月18日

【ACL2020】对抗性文本生成，Improving Adversarial Text Generation

专知会员服务

52+阅读 · 2020年5月5日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【新书】Python编程基础，669页pdf

【新书】Python编程基础，669页pdf

专知会员服务

197+阅读 · 2019年10月10日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《迈向真正的机器人队友：推断与运用认知状态以实现新型人类-自主系统协作能力》最新博士论文

《面向开放式兵棋推演的语言模型》2025最新文献

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

《面向未来部队设计的兵棋推演：解锁过程中的作战艺术》

相关资讯

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

19篇ICML2019论文摘录选读！

19篇ICML2019论文摘录选读！

专知

28+阅读 · 2019年4月28日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

【泡泡一分钟】基于机器人的视觉惯性里程计（IROS2018-10）

【泡泡一分钟】基于机器人的视觉惯性里程计（IROS2018-10）

泡泡机器人SLAM

13+阅读 · 2019年1月3日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

【泡泡一分钟】用于平面环境的线性RGBD-SLAM

【泡泡一分钟】用于平面环境的线性RGBD-SLAM

泡泡机器人SLAM

6+阅读 · 2018年12月18日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【泡泡一分钟】把目标跟踪看作为在线决策过程--用强化学习在视频流中学习策略(ICCV2017-31)

【泡泡一分钟】把目标跟踪看作为在线决策过程--用强化学习在视频流中学习策略(ICCV2017-31)

泡泡机器人SLAM

3+阅读 · 2018年6月5日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

相关论文

Centralized Cooperation for Connected and Automated Vehicles at Intersections by Proximal Policy Optimization

Arxiv

0+阅读 · 2021年3月11日

Advancing Trajectory Optimization with Approximate Inference: Exploration, Covariance Control and Adaptive Risk

Arxiv

0+阅读 · 2021年3月10日

Maximum Entropy RL (Provably) Solves Some Robust RL Problems

Arxiv

0+阅读 · 2021年3月10日

Active Exploration and Mapping via Iterative Covariance Regulation over Continuous $SE(3)$ Trajectories

Arxiv

0+阅读 · 2021年3月10日

Monotonic Alpha-divergence Minimisation

Arxiv

0+阅读 · 2021年3月9日

Risk-Averse RRT* Planning with Nonlinear Steering and Tracking Controllers for Nonlinear Robotic Systems Under Uncertainty

Arxiv

0+阅读 · 2021年3月9日

Combining Gaussian processes and polynomial chaos expansions for stochastic nonlinear model predictive control

Arxiv

0+阅读 · 2021年3月9日

Preserving general physical properties in model reduction of dynamical systems via constrained-optimization projection

Arxiv

0+阅读 · 2021年3月9日

Bipedal Walking Robot using Deep Deterministic Policy Gradient

Bipedal Walking Robot using Deep Deterministic Policy Gradient

Arxiv

3+阅读 · 2018年7月16日

Reinforcement Learning for Solving the Vehicle Routing Problem

Arxiv

3+阅读 · 2018年5月21日

微信扫码咨询专知VIP会员