优化基于优化动态的轨迹优化 (Trajectory Optimization with Optimization-Based Dynamics) - 专知论文

会员服务 ·

0

优化器 · 无约束优化 · 平滑 · 约束优化 · 约束 ·

2021 年 12 月 11 日

Trajectory Optimization with Optimization-Based Dynamics

翻译：优化基于优化动态的轨迹优化

Taylor A. Howell,Simon Le Cleac'h,Sumeet Singh,Pete Florence,Zachary Manchester,Vikas Sindhwani

We present a framework for bi-level trajectory optimization in which a system's dynamics are encoded as the solution to a constrained optimization problem and smooth gradients of this lower-level problem are passed to an upper-level trajectory optimizer. This optimization-based dynamics representation enables constraint handling, additional variables, and non-smooth behavior to be abstracted away from the upper-level optimizer, and allows classical unconstrained optimizers to synthesize trajectories for more complex systems. We provide a path-following method for efficient evaluation of constrained dynamics and utilize the implicit-function theorem to compute smooth gradients of this representation. We demonstrate the framework by modeling systems from locomotion, aerospace, and manipulation domains including: acrobot with joint limits, cart-pole subject to Coulomb friction, Raibert hopper, rocket landing with thrust limits, and planar-push task with optimization-based dynamics and then optimize trajectories using iterative LQR.

翻译：我们提出了一个双级轨迹优化框架,将系统的动态编码成系统优化问题的解决办法,将这一较低层次问题的平滑梯度传递到高层轨道优化器中。这种基于优化的动态代表能够将制约处理、额外变量和非移动行为从上层优化器中抽取出来,并允许传统的未受限制优化器将轨迹合成到更复杂的系统。我们为高效评估受限制的动态提供了一条遵循路径的方法,并利用隐含功能的理论来计算这一表达方式的平滑梯度。我们通过从locomotion、航空航天和操控领域建模系统来演示这一框架,包括:具有联合限制的crobot、受Coulomb摩擦、Rabert licop、具有推力限制的火箭着陆以及带有优化动力的平板式推进器任务,然后利用迭接式LQR优化轨迹。

0

相关内容

优化器

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

专知会员服务

135+阅读 · 2021年6月16日

ICLR 2021杰出论文奖出炉，8篇论文上榜！

专知会员服务

26+阅读 · 2021年4月2日

机器学习组合优化

机器学习组合优化

专知会员服务

110+阅读 · 2021年2月16日

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

专知会员服务

63+阅读 · 2020年11月29日

【纽约大学】轨迹数据管理、分析和学习的综述，36页pdf，Trajectory Data Analytics

【纽约大学】轨迹数据管理、分析和学习的综述，36页pdf，Trajectory Data Analytics

专知会员服务

40+阅读 · 2020年3月27日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

10+阅读 · 2019年10月24日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Call for Participation: Shared Tasks in NLPCC 2019

Call for Participation: Shared Tasks in NLPCC 2019

中国计算机学会

5+阅读 · 2019年3月22日

TCN v2 + 3Dconv 运动信息

TCN v2 + 3Dconv 运动信息

CreateAMind

4+阅读 · 2019年1月8日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

OpenAI丨深度强化学习关键论文列表

OpenAI丨深度强化学习关键论文列表

中国人工智能学会

17+阅读 · 2018年11月10日

【OpenAI】深度强化学习关键论文列表

【OpenAI】深度强化学习关键论文列表

专知

11+阅读 · 2018年11月10日

【泡泡一分钟】基于相对位姿估计去噪处理的多机器人协同定位算法（ICRA-25）

【泡泡一分钟】基于相对位姿估计去噪处理的多机器人协同定位算法（ICRA-25）

泡泡机器人SLAM

3+阅读 · 2018年2月5日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Learning Reward Models for Cooperative Trajectory Planning with Inverse Reinforcement Learning and Monte Carlo Tree Search

Arxiv

0+阅读 · 2022年2月16日

QuadSim: A Quadcopter Rotational Dynamics Simulation Framework For Reinforcement Learning Algorithms

Arxiv

0+阅读 · 2022年2月14日

Recursive Feasibility and Deadlock Resolution in MPC-based Multi-robot Trajectory Generation

Arxiv

0+阅读 · 2022年2月12日

Optimization-based Trajectory Tracking Approach for Multi-rotor Aerial Vehicles in Unknown Environments

Arxiv

0+阅读 · 2022年2月12日

Learning by Doing: Controlling a Dynamical System using Causality, Control, and Reinforcement Learning

Arxiv

0+阅读 · 2022年2月12日

Lane Departure Prediction Based on Closed-Loop Vehicle Dynamics

Arxiv

0+阅读 · 2022年2月12日

Adaptive Regret for Control of Time-Varying Dynamics

Arxiv

0+阅读 · 2022年2月12日

Towards Gradient-based Bilevel Optimization with Non-convex Followers and Beyond

Arxiv

5+阅读 · 2021年10月1日

Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings

Arxiv

6+阅读 · 2018年6月7日

Experience-driven Networking: A Deep Reinforcement Learning based Approach

Arxiv

9+阅读 · 2018年1月17日

VIP会员

文章信息

相关主题

无约束优化

相关VIP内容

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

专知会员服务

135+阅读 · 2021年6月16日

ICLR 2021杰出论文奖出炉，8篇论文上榜！

专知会员服务

26+阅读 · 2021年4月2日

机器学习组合优化

机器学习组合优化

专知会员服务

110+阅读 · 2021年2月16日

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

专知会员服务

63+阅读 · 2020年11月29日

【纽约大学】轨迹数据管理、分析和学习的综述，36页pdf，Trajectory Data Analytics

【纽约大学】轨迹数据管理、分析和学习的综述，36页pdf，Trajectory Data Analytics

专知会员服务

40+阅读 · 2020年3月27日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

10+阅读 · 2019年10月24日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

【NTU博士论文】利用强化学习与生成模型推进可靠且可泛化的决策

美海军研发“增强侦察与态势评估系统（ARES）”应用程序以优化作战规划（附研究论文）

【NeurIPS2025】DNA-DetectLLM：基于 DNA 启发的“突变-修复”范式揭示 AI 生成文本

面向深度研究系统的强化学习基础：综述

相关资讯

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Call for Participation: Shared Tasks in NLPCC 2019

Call for Participation: Shared Tasks in NLPCC 2019

中国计算机学会

5+阅读 · 2019年3月22日

TCN v2 + 3Dconv 运动信息

TCN v2 + 3Dconv 运动信息

CreateAMind

4+阅读 · 2019年1月8日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

OpenAI丨深度强化学习关键论文列表

OpenAI丨深度强化学习关键论文列表

中国人工智能学会

17+阅读 · 2018年11月10日

【OpenAI】深度强化学习关键论文列表

【OpenAI】深度强化学习关键论文列表

专知

11+阅读 · 2018年11月10日

【泡泡一分钟】基于相对位姿估计去噪处理的多机器人协同定位算法（ICRA-25）

【泡泡一分钟】基于相对位姿估计去噪处理的多机器人协同定位算法（ICRA-25）

泡泡机器人SLAM

3+阅读 · 2018年2月5日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Learning Reward Models for Cooperative Trajectory Planning with Inverse Reinforcement Learning and Monte Carlo Tree Search

Arxiv

0+阅读 · 2022年2月16日

QuadSim: A Quadcopter Rotational Dynamics Simulation Framework For Reinforcement Learning Algorithms

Arxiv

0+阅读 · 2022年2月14日

Recursive Feasibility and Deadlock Resolution in MPC-based Multi-robot Trajectory Generation

Arxiv

0+阅读 · 2022年2月12日

Optimization-based Trajectory Tracking Approach for Multi-rotor Aerial Vehicles in Unknown Environments

Arxiv

0+阅读 · 2022年2月12日

Learning by Doing: Controlling a Dynamical System using Causality, Control, and Reinforcement Learning

Arxiv

0+阅读 · 2022年2月12日

Lane Departure Prediction Based on Closed-Loop Vehicle Dynamics

Arxiv

0+阅读 · 2022年2月12日

Adaptive Regret for Control of Time-Varying Dynamics

Arxiv

0+阅读 · 2022年2月12日

Towards Gradient-based Bilevel Optimization with Non-convex Followers and Beyond

Arxiv

5+阅读 · 2021年10月1日

Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings

Arxiv

6+阅读 · 2018年6月7日

Experience-driven Networking: A Deep Reinforcement Learning based Approach

Arxiv

9+阅读 · 2018年1月17日

微信扫码咨询专知VIP会员