由于数据量的不断增加,金融行业的快速变化使数据处理和数据分析技术发生了革命性的变化,并带来了新的理论和计算挑战。与经典的随机控制理论和其他解决财务决策问题的分析方法相比,强化学习(RL)的新发展能够充分利用大量的金融数据,较少的模型假设,改善复杂金融环境下的决策。本文旨在回顾RL方法在金融领域的最新发展和应用。我们介绍了马尔科夫决策过程,它是许多常用RL方法的设置。然后介绍各种算法,重点介绍不需要任何模型假设的基于值和策略的方法。与神经网络连接,以扩展框架,以包含深度RL算法。我们的综述通过讨论这些RL算法在各种金融决策问题中的应用,包括最优执行、投资组合优化、期权定价和对冲、市场营销、智能订单路由和机器人建议。

引言

许多金融决策问题的数学方法传统上是通过随机过程建模和使用随机控制产生的技术。模型的选择通常是由平衡适应性和适用性的需要决定的。简单的模型可以在封闭的形式下或通过传统的数值方法找到易于处理和实现的策略。然而,这些模型有时过于简化了金融市场的机制和行为,这可能导致在实践中不是最优的策略,并可能导致财务损失。另一方面,试图捕捉金融市场现实特征的模型要复杂得多,而且往往在数学上和计算上难以使用随机最优控制的经典工具。

近年来,在电子订单驱动的市场中,大量关于交易、报价和订单流的金融数据的可用性给金融中的数据处理和统计建模技术带来了革命性的变化,并带来了新的理论和计算挑战。与经典的随机控制方法相比,来自强化学习(RL)的新思想正在被开发来利用所有这些信息。强化学习描述了一种方法,通过这种方法,在某些系统中活动的主体可以通过与系统交互获得的重复经验来学习做出最优决策。近年来,在金融行业中,RL算法在订单执行、做市和投资组合优化等领域的应用取得了许多成功,引起了人们的广泛关注。当参与者对市场和其他竞争对手的信息有限时,运用RL技术改进各种金融市场的交易决策取得了快速进展。

虽然已经有一些关于金融强化学习方面的更专业的回顾论文,我们的目标是回顾这一领域的广泛工作。本综述旨在提供RL理论的系统介绍,并对下列财务问题——最优执行、投资组合优化、期权定价和对冲、市场营销、智能指令路由和机器人建议进行介绍性讨论。此外,我们还将讨论RL方法相对于经典方法(如随机控制)的优势,特别是对于数学金融文献中已经广泛研究的问题。对于其他具有不同重点的近期综述,见[39],[43],[70],[120],[147]和[155]。关于RL方法在机器学习更广泛的框架内应用于金融问题的讨论,包括期权定价和投资组合优化,见[57,第10章]。

我们的综述将从讨论马尔可夫决策过程(MDP)开始,这是金融中许多强化学习思想的框架。然后,我们将在这个框架内考虑不同的学习方法,主要重点是基于价值和策略的方法。为了实现这些方法,我们将引入深度强化方法,在此背景下结合深度学习思想。对于我们的金融应用,我们将考虑一系列的主题,在考虑使用RL方法处理它们之前,我们将介绍基本的底层模型。我们将讨论每个应用领域的一系列论文,并给出他们的贡献。最后对金融强化学习的发展方向提出了一些思考。

强化学习金融应用未来发展

本综述中引用的许多论文都在这一方向上迈出了重要的第一步。我们列出了以下读者可能感兴趣的未来方向。

  • 风险意识或风险敏感RL。风险产生于与未来事件相关的不确定性,并且是不可避免的,因为在作出决定时,行动的后果是不确定的。许多金融导致交易策略和决策问题是很重要的考虑风险的策略(例如可测量的最大提取资金,PnL分布的方差或5%百分位)和/或从市场环境风险等逆向选择风险。

  • 离线学习和在线探索。在线学习需要实时更新算法参数,这对于许多财务决策问题是不切实际的,尤其是在高频情况下。最合理的设置是在交易时段用预先指定的勘探方案收集数据,然后在交易结束后用新的收集到的数据更新算法。这与将在线学习转化为离线回归[185]和使用批量数据的RL[44,77,78,171]密切相关。然而,这些发展集中在一般方法,而不是专门为金融应用量身定制。

  • 在有限的探索预算下学习。探索可以帮助代理找到新的策略来提高他们未来的累积奖励。然而,过多的探索既会消耗时间,也会消耗计算量,特别是对于一些金融应用来说,它可能非常昂贵。此外,在金融机构内部,探索黑箱交易策略可能需要大量的理由,因此投资者倾向于限制探索的努力,并试图在给定的探索预算内尽可能地改善表现。

  • 多目标学习。在金融领域,一个常见的问题是选择一个投资组合时,有两个相互矛盾的目标,渴望投资组合回报的期望值是尽可能高,和渴望有风险,通常以投资组合回报率的标准差来衡量,是尽可能低。

成为VIP会员查看完整内容
114

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《图机器学习》综述论文,19页pdf
专知会员服务
146+阅读 · 2021年5月5日
持续学习最新综述论文,29页pdf
专知会员服务
117+阅读 · 2021年4月22日
【斯坦福经典书】强化学习在金融应用,414页pdf
专知会员服务
121+阅读 · 2021年3月30日
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
132+阅读 · 2020年12月22日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
152+阅读 · 2020年6月12日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
专知会员服务
197+阅读 · 2020年3月6日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
161+阅读 · 2020年2月27日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
169+阅读 · 2020年2月8日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
自动驾驶最新综述论文(31页PDF下载)
专知
118+阅读 · 2019年1月15日
深度学习在金融文本情感分类中的应用
AI前线
36+阅读 · 2019年1月12日
【干货】机器学习和深度学习概念入门(下)
机器学习研究会
6+阅读 · 2017年12月31日
Arxiv
4+阅读 · 2022年2月11日
Arxiv
30+阅读 · 2021年7月7日
Arxiv
32+阅读 · 2021年3月8日
Arxiv
15+阅读 · 2019年9月30日
Techniques for Automated Machine Learning
Arxiv
4+阅读 · 2019年7月21日
Arxiv
5+阅读 · 2018年5月31日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
最新《图机器学习》综述论文,19页pdf
专知会员服务
146+阅读 · 2021年5月5日
持续学习最新综述论文,29页pdf
专知会员服务
117+阅读 · 2021年4月22日
【斯坦福经典书】强化学习在金融应用,414页pdf
专知会员服务
121+阅读 · 2021年3月30日
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
132+阅读 · 2020年12月22日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
152+阅读 · 2020年6月12日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
专知会员服务
197+阅读 · 2020年3月6日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
161+阅读 · 2020年2月27日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
169+阅读 · 2020年2月8日
相关论文
Arxiv
4+阅读 · 2022年2月11日
Arxiv
30+阅读 · 2021年7月7日
Arxiv
32+阅读 · 2021年3月8日
Arxiv
15+阅读 · 2019年9月30日
Techniques for Automated Machine Learning
Arxiv
4+阅读 · 2019年7月21日
Arxiv
5+阅读 · 2018年5月31日
Arxiv
11+阅读 · 2018年4月25日
微信扫码咨询专知VIP会员