牛津大学发布60页最新《强化学习金融应用进展》综述论文

由于数据量的不断增加，金融行业的快速变化使数据处理和数据分析技术发生了革命性的变化，并带来了新的理论和计算挑战。与经典的随机控制理论和其他解决财务决策问题的分析方法相比，强化学习(RL)的新发展能够充分利用大量的金融数据，较少的模型假设，改善复杂金融环境下的决策。本文旨在回顾RL方法在金融领域的最新发展和应用。我们介绍了马尔科夫决策过程，它是许多常用RL方法的设置。然后介绍各种算法，重点介绍不需要任何模型假设的基于值和策略的方法。与神经网络连接，以扩展框架，以包含深度RL算法。我们的综述通过讨论这些RL算法在各种金融决策问题中的应用，包括最优执行、投资组合优化、期权定价和对冲、市场营销、智能订单路由和机器人建议。

引言

许多金融决策问题的数学方法传统上是通过随机过程建模和使用随机控制产生的技术。模型的选择通常是由平衡适应性和适用性的需要决定的。简单的模型可以在封闭的形式下或通过传统的数值方法找到易于处理和实现的策略。然而，这些模型有时过于简化了金融市场的机制和行为，这可能导致在实践中不是最优的策略，并可能导致财务损失。另一方面，试图捕捉金融市场现实特征的模型要复杂得多，而且往往在数学上和计算上难以使用随机最优控制的经典工具。

近年来，在电子订单驱动的市场中，大量关于交易、报价和订单流的金融数据的可用性给金融中的数据处理和统计建模技术带来了革命性的变化，并带来了新的理论和计算挑战。与经典的随机控制方法相比，来自强化学习(RL)的新思想正在被开发来利用所有这些信息。强化学习描述了一种方法，通过这种方法，在某些系统中活动的主体可以通过与系统交互获得的重复经验来学习做出最优决策。近年来，在金融行业中，RL算法在订单执行、做市和投资组合优化等领域的应用取得了许多成功，引起了人们的广泛关注。当参与者对市场和其他竞争对手的信息有限时，运用RL技术改进各种金融市场的交易决策取得了快速进展。

虽然已经有一些关于金融强化学习方面的更专业的回顾论文，我们的目标是回顾这一领域的广泛工作。本综述旨在提供RL理论的系统介绍，并对下列财务问题——最优执行、投资组合优化、期权定价和对冲、市场营销、智能指令路由和机器人建议进行介绍性讨论。此外，我们还将讨论RL方法相对于经典方法(如随机控制)的优势，特别是对于数学金融文献中已经广泛研究的问题。对于其他具有不同重点的近期综述，见[39]，[43]，[70]，[120]，[147]和[155]。关于RL方法在机器学习更广泛的框架内应用于金融问题的讨论，包括期权定价和投资组合优化，见[57，第10章]。

我们的综述将从讨论马尔可夫决策过程(MDP)开始，这是金融中许多强化学习思想的框架。然后，我们将在这个框架内考虑不同的学习方法，主要重点是基于价值和策略的方法。为了实现这些方法，我们将引入深度强化方法，在此背景下结合深度学习思想。对于我们的金融应用，我们将考虑一系列的主题，在考虑使用RL方法处理它们之前，我们将介绍基本的底层模型。我们将讨论每个应用领域的一系列论文，并给出他们的贡献。最后对金融强化学习的发展方向提出了一些思考。

强化学习金融应用未来发展

本综述中引用的许多论文都在这一方向上迈出了重要的第一步。我们列出了以下读者可能感兴趣的未来方向。

风险意识或风险敏感RL。风险产生于与未来事件相关的不确定性，并且是不可避免的，因为在作出决定时，行动的后果是不确定的。许多金融导致交易策略和决策问题是很重要的考虑风险的策略(例如可测量的最大提取资金,PnL分布的方差或5%百分位)和/或从市场环境风险等逆向选择风险。
离线学习和在线探索。在线学习需要实时更新算法参数，这对于许多财务决策问题是不切实际的，尤其是在高频情况下。最合理的设置是在交易时段用预先指定的勘探方案收集数据，然后在交易结束后用新的收集到的数据更新算法。这与将在线学习转化为离线回归[185]和使用批量数据的RL[44,77,78,171]密切相关。然而，这些发展集中在一般方法，而不是专门为金融应用量身定制。
在有限的探索预算下学习。探索可以帮助代理找到新的策略来提高他们未来的累积奖励。然而，过多的探索既会消耗时间，也会消耗计算量，特别是对于一些金融应用来说，它可能非常昂贵。此外，在金融机构内部，探索黑箱交易策略可能需要大量的理由，因此投资者倾向于限制探索的努力，并试图在给定的探索预算内尽可能地改善表现。
多目标学习。在金融领域,一个常见的问题是选择一个投资组合时,有两个相互矛盾的目标,渴望投资组合回报的期望值是尽可能高,和渴望有风险,通常以投资组合回报率的标准差来衡量,是尽可能低。

成为VIP会员查看完整内容