We systematically develop a learning-based treatment of stochastic optimal control (SOC), relying on direct optimization of parametric control policies. We propose a derivation of adjoint sensitivity results for stochastic differential equations through direct application of variational calculus. Then, given an objective function for a predetermined task specifying the desiderata for the controller, we optimize their parameters via iterative gradient descent methods. In doing so, we extend the range of applicability of classical SOC techniques, often requiring strict assumptions on the functional form of system and control. We verify the performance of the proposed approach on a continuous-time, finite horizon portfolio optimization with proportional transaction costs.


翻译:我们通过直接优化参数控制政策,系统地发展基于学习的对随机最佳控制(SOC)的处理方法;我们提议通过直接应用变微分法,对随机差异方程式产生联合敏感性结果;然后,给一项预先确定的任务设定一个客观功能,具体指定控制器的分层,我们通过迭代梯度下降法优化其参数;这样,我们扩大了传统SOC技术的适用范围,常常要求对系统和控制的功能形式进行严格的假设;我们用比例交易成本来核查拟议方法的绩效,即连续时间、有限地平线组合优化和比例交易成本。

0
下载
关闭预览

相关内容

强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年7月28日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
VIP会员
相关VIP内容
相关资讯
Top
微信扫码咨询专知VIP会员