强化学习(RL)作为一种可行的、强大的技术,用于解决各种复杂的跨行业业务问题,包括在不确定性下的顺序优化决策。尽管RL被归类为机器学习(ML)的一个分支,但它的看待和处理方式往往与机器学习的其他分支(监督和非监督学习)非常不同。事实上,RL似乎掌握了开启人工智能前景的关键——人工智能可以根据观察到的信息的变化来调整决策,同时不断朝着最优结果前进。RL算法在无人驾驶汽车、机器人和策略游戏等备受瞩目的问题上的渗透,预示着未来RL算法的决策能力将远超人类。

本书重点研究支撑RL的基础理论。我们对这一理论的处理是基于本科水平的概率、优化、统计和线性代数。我们强调严谨但简单的数学符号和公式来发展理论,并鼓励你把方程写出来,而不是仅仅从书中阅读。偶尔,我们引用一些高等数学(如:随机微积分),但本书的大部分是基于容易理解的数学。特别是,两个基本的理论概念- Bellman最优方程和广义策略迭代-贯穿全书,因为它们构成了我们在RL中所做的几乎所有事情的基础,甚至在最先进的算法中。

本书第二部分用动态规划或强化学习算法解决的金融应用。作为随机控制问题的许多金融应用的一个基本特征是,模型MDP的回报是效用函数,以捕捉金融回报和风险之间的权衡。

成为VIP会员查看完整内容
0
35

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

为全面提升人工智能技术在金融领域应用和管理水平,推动金融与科技深度融合协调发展,中国人民银行制定了《人工智能算法金融应用评价规范》(以下简称《规范》),于近日正式印发。

《规范》针对当前人工智能技术应用存在的算法黑箱、算法同质化、模型缺陷等潜在风险问题,建立了人工智能金融应用算法评价框架,从安全性、可解释性、精准性和性能等方面系统化地提出基本要求、评价方法和判定准则,为金融机构加强智能算法应用风险管理提供指引。

《规范》的发布有助于引导金融机构充分发挥人工智能“头雁效应”,加快金融数字化转型步伐,持续推动金融服务更为贴心、更加智慧、更有温度,打造数字经济时代金融创新发展新引擎,助力健全具有高度适应性、竞争力、普惠性的现代金融体系。

规范的第五章总则指出:本文件从安全性、可解释性、精准性和性能方面这四个方面对AI开展算法评价,适用场景分为资金类和非资金类。不仅针对传统的AI算法评价指标——精准性和性能方面做出要求,更是史无前例的在算法的安全性与可解释性上做出了限制,客观地评价了AI算法对于金融场景的适合程度。下面就针对这四方面展开解读:

AI算法的安全性是决定是否可用的基础,它为金融行业的应用提供了安全保障,只有在满足了安全性的要求为前提条件下AI算法才能在金融领域展开应用。《规范》中针对AI算法的安全性评价主要是从目标函数的安全性,算法面对不同种类攻击的防范能力,算法所依赖的库的安全性,算法的可追溯性,算法内控等方面提出了基本要求、评价方法和判定标准。

AI算法的可解释性是判断算法是否适用的重要依据,可解释性越高的算法,其内在逻辑、决策过程、技术实现路径、预期目标越清晰,算法也更容易被场景应用者理解、管理和应用。《规范》中针对算法的可解释性评价从算法建模准备、建模过程、建模应用三个方面提出了基本要求、评价方法和判定准则。

成为VIP会员查看完整内容
0
27

在过去的二十年里,机器学习已经成为信息技术的支柱之一,并因此成为我们生活中相当核心(尽管通常是隐藏的)的一部分。随着可用数据量的不断增加,我们有充分的理由相信,智能数据分析将变得更加普遍,成为技术进步的必要因素。本章的目的是为读者提供一个广泛的应用的概述,这些应用的核心是一个机器学习问题,并给这一大堆问题带来一定程度的秩序。在那之后,我们将讨论一些来自统计和概率论的基本工具,因为它们构成了许多机器学习问题必须被表述成易于解决的语言。最后,我们将概述一套相当基本但有效的算法来解决一个重要的问题,即分类。更复杂的工具,更普遍的问题的讨论和详细的分析将在本书后面的部分。

成为VIP会员查看完整内容
0
20

这是一门关于在不确定情况下强化学习(RL)和顺序决策的入门课程,重点在于理解理论基础。我们研究如何使用动态规划方法,如价值和策略迭代,来解决具有已知模型的顺序决策问题,以及如何扩展这些方法,以解决模型未知的强化学习问题。其他主题包括(但不限于)RL中的函数近似、策略梯度方法、基于模型的RL以及平衡探索-利用权衡。本课程将以讲座和阅读古典及近期论文的方式传授给学生。因为重点是理解基础,你应该期望通过数学细节和证明。本课程的要求背景包括熟悉概率论和统计、微积分、线性代数、最优化和(有监督的)机器学习。

https://amfarahmand.github.io/IntroRL/

目录内容:

  • Introduction to Reinforcement Learning
  • Structural Properties of Markov Decision Processes (Part I)
  • Structural Properties of Markov Decision Processes (Part II)
  • Planning with a Known Model
  • Learning from a Stream of Data (Part I)
  • Learning from a Stream of Data (Part II)
  • Value Function Approximation (Part I)
  • Value Function Approximation (Part II)
  • Value Function Approximation (Part III)
  • Value Function Approximation (Part IV)
  • Policy Gradient Methods
  • Model-based RL
  • Presentations

强化学习入门笔记

这是多伦多大学计算机科学系于2021年春季教授的强化学习(RL)研究生课程介绍的讲义。本课程是入门性的,因为它不需要预先接触强化学习。然而,它不仅仅是算法的集合。相反,它试图在RL中经常遇到的许多重要思想和概念背后建立数学直觉。在这些讲义的过程中,我证明了很多基础的,或者有时不那么基础的,RL的结果。如果某个结果的证明过于复杂,我就证明一个简化的版本。

强化学习(RL)既指一类问题,也指解决这类问题的一组计算方法。RL问题是指如何采取行动,使某些长期绩效的概念得到最大化。RL问题,从它的定义来看,是关于一个实体的行为和交互,我们称之为代理,与其周围的环境,我们称之为环境。这是一个非常普遍的目标。有人可能会说,解决AI问题等同于解决RL问题。强化学习也指解决RL问题的一套计算方法。一个代理需要做什么样的计算才能确保它的行为能够带来良好的(甚至是最佳的)长期性能?实现这些的方法称为RL方法。历史上,在所有试图解决RL问题的计算方法中,只有一个子集被称为RL方法。例如Q-Learning这样的方法(我们将在本课程中学习)是一种很好的RL方法,但是进化计算的方法,如遗传算法,则不是。人们可以争辩说,进化计算方法没有太多的“学习”成分,或者它们不以个体生命的时间尺度行事,而是以世代的时间尺度行事。虽然这些是真正的区别,但这种划分方式有些武断。在本课堂讲稿中,我们将重点放在“RL社区”中经常学习的方法上。

成为VIP会员查看完整内容
0
25

本书致力于概率信息测度理论及其在信息源和噪声信道编码定理中的应用。最终的目标是全面发展香农的通信数学理论,但大部分篇幅都用于证明香农编码定理所需的工具和方法。这些工具形成了遍历理论和信息论的共同领域,并包含了随机变量、随机过程和动力系统中的信息的几个定量概念。例如熵、互信息、条件熵、条件信息和相对熵(鉴别、Kullback-Leibler信息),以及这些量的极限标准化版本,如熵率和信息率。在考虑多个随机对象时,除了考虑信息之外,我们还会考虑随机对象之间的距离或变形,即一个随机对象被另一个随机对象表示的准确性。书的大部分与这些量的性质有关,特别是平均信息和扭曲的长期渐近行为,其中两个样本平均数和概率平均数是有兴趣的。

成为VIP会员查看完整内容
0
46

本课程关注控制理论和强化学习的理论介绍,侧重于连续状态空间以及物理世界和机器人技术的应用。我们强调计算效率的算法和可证明的界。特别关注RL中非随机控制和遗憾最小化的新方法。我们将与该领域的经典方法论进行比较和对比。

本课程的练习和项目将需要用python编写代码。

这门课程对所有学生开放,但要求有很强的数学背景。

https://sites.google.com/view/cos59x-cct/home

深度学习的先驱、图灵奖获得者Yann Lecun教授有一种非常简洁明了地抓住问题症结的气质。2020年2月左右,他在巴巴多斯研讨会上说,

“控制=梯度强化学习”。

强化学习和控制理论的关键区别在于它们所操作的空间。强化学习的范围通常位于离散状态空间(如围棋、国际象棋),而控制理论通常处理涉及物理和连续空间(如机器人)的问题。物理学和结构环境的知识使我们能够利用差分信息。

后者允许我们使用强大的数学优化和凸松弛技术来设计高效的算法。这是自适应非随机控制理论的主题,也是本课程的主题。

成为VIP会员查看完整内容
0
30

强化学习(RL)作为一种可行且强大的技术,正逐渐成为一种解决各种复杂业务问题的技术,这些问题涉及不确定条件下的连续优化决策。尽管RL被归类为机器学习(ML)的一个分支,但它往往与ML(监督学习和非监督学习)的其他分支有很大的不同。事实上,RL似乎掌握着开启人工智能前景的钥匙——机器可以根据观察到的异常信息调整决策,同时不断转向最佳结果。它在无人驾驶汽车、机器人和策略游戏等备受关注的问题上的应用,预示着未来RL算法将拥有远超人类的决策能力。但是当谈到RL的学习应用时,人们似乎不愿意直接进入。我们经常听到甚至技术人员声称RL涉及“高等数学”和“复杂工程”,所以似乎有一个心理障碍进入。虽然现实世界的RL算法和实现在克服众所周知的最后业务问题时确实变得相当复杂,但是RL的基础实际上不需要繁重的技术机器就可以学会。本书的核心目的是通过在理解的深度和保持基本技术内容之间找到平衡来揭开RL的神秘面纱。因此,我们将学习:

  • 您将了解简单而强大的马尔可夫决策过程(MDPs)理论——不确定情况下的序列最优决策框架。您将坚定地理解Bellman方程的力量,它是所有动态规划和所有RL算法的核心。

  • 您将掌握动态规划(DP)算法,这是一类(用人工智能的语言)规划算法。您将学习策略迭代、值迭代、逆向归纳、近似动态规划和广义策略迭代的重要概念,它是所有DP和所有RL算法的核心。

  • 您将获得各种强化学习(RL)算法的坚实的理解,从基本算法如SARSA和Q-Learning,并进入学习在实践中工作得很好的几个重要的算法,包括梯度时间差分,深度Q网络,最小二乘策略迭代,策略梯度,蒙特卡罗树搜索。您将了解如何利用bootstrapping、off-policy学习和基于深度神经网络的函数逼近在这些算法中获得优势。您还将学习如何平衡探索和利用Multi-Armed Bandits技术,如置信上限,汤普森采样,梯度盗匪和信息状态空间算法。

  • 您将练习大量的模型和算法的“从头开始”Python实现。贯穿全书,我们强调了良好的Python编程实践,包括接口设计、类型注释、函数式编程和基于继承的多态(始终确保编程原则反映数学原则)。从这本书中获得的更大的收获是一种将应用数学概念与软件设计范例相结合的罕见的(高需求的)能力。

成为VIP会员查看完整内容
0
65

这是我2004年,2006年和2009年在斯坦福大学教授的概率理论博士课程的讲义。本课程的目标是为斯坦福大学数学和统计学系的博士生做概率论研究做准备。更广泛地说,文本的目标是帮助读者掌握概率论的数学基础和在这一领域中证明定理最常用的技术。然后将此应用于随机过程的最基本类的严格研究。

为此,我们在第一章中介绍了测度与积分理论中的相关元素,即事件的概率空间与格-代数、作为可测函数的随机变量、它们的期望作为相应的勒贝格积分,以及独立性的重要概念。

利用这些元素,我们在第二章中研究了随机变量收敛的各种概念,并推导了大数的弱定律和强定律。

第三章讨论了弱收敛的理论、分布函数和特征函数的相关概念以及中心极限定理和泊松近似的两个重要特例。

基于第一章的框架,我们在第四章讨论了条件期望的定义、存在性和性质,以及相关的规则条件概率分布。

第五章讨论了过滤、信息在时间上的级数的数学概念以及相应的停止时间。关于后者的结果是作为一组称为鞅的随机过程研究的副产品得到的。讨论了鞅表示、极大不等式、收敛定理及其各种应用。为了更清晰和更容易的表述,我们在这里集中讨论离散时间的设置来推迟与第九章相对应的连续时间。

第六章简要介绍了马尔可夫链的理论,概率论的核心是一个庞大的主题,许多教科书都致力于此。我们通过研究一些有趣的特殊情况来说明这类过程的一些有趣的数学性质。

在第七章中,我们简要介绍遍历理论,将注意力限制在离散时间随机过程的应用上。我们定义了平稳过程和遍历过程的概念,推导了Birkhoff和Kingman的经典定理,并强调了该理论的许多有用应用中的少数几个。

第八章建立了以连续时间参数为指标的右连续随机过程的研究框架,引入了高斯过程族,并严格构造了布朗运动为连续样本路径和零均值平稳独立增量的高斯过程。

第九章将我们先前对鞅和强马尔可夫过程的处理扩展到连续时间的设定,强调了右连续滤波的作用。然后在布朗运动和马尔可夫跳跃过程的背景下说明了这类过程的数学结构。

在此基础上,在第十章中,我们利用不变性原理重新构造了布朗运动作为某些重新标定的随机游动的极限。进一步研究了其样本路径的丰富性质以及布朗运动在clt和迭代对数定律(简称lil)中的许多应用。

https://statweb.stanford.edu/~adembo/stat-310b/lnotes.pdf

成为VIP会员查看完整内容
0
57

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
97

强化一词来源于实验心理学中对动物学习的研究,它指的是某一事件的发生,与某一反应之间有恰当的关系,而这一事件往往会增加该反应在相同情况下再次发生的可能性。虽然心理学家没有使用“强化学习”这个术语,但它已经被人工智能和工程领域的理论家广泛采用,用来指代基于这一强化原理的学习任务和算法。最简单的强化学习方法使用的是一个常识,即如果一个行为之后出现了一个令人满意的状态,或者一个状态的改善,那么产生该行为的倾向就会得到加强。强化学习的概念在工程领域已经存在了几十年(如Mendel和McClaren 1970),在人工智能领域也已经存在了几十年(Minsky 1954, 1961;撒母耳1959;图灵1950)。然而,直到最近,强化学习方法的发展和应用才在这些领域占据了大量的研究人员。激发这种兴趣的是两个基本的挑战:1) 设计能够在复杂动态环境中在不确定性下运行的自主机器人代理,2) 为非常大规模的动态决策问题找到有用的近似解。

成为VIP会员查看完整内容
0
136
小贴士
相关VIP内容
专知会员服务
20+阅读 · 4月20日
专知会员服务
46+阅读 · 3月23日
专知会员服务
62+阅读 · 1月1日
专知会员服务
30+阅读 · 2020年12月24日
专知会员服务
65+阅读 · 2020年12月22日
专知会员服务
57+阅读 · 2020年12月3日
专知会员服务
136+阅读 · 2020年4月19日
相关论文
Yunlong Song,Davide Scaramuzza
0+阅读 · 5月9日
Guy Blanc,Jane Lange,Li-Yang Tan
0+阅读 · 5月8日
Lixin Zou,Long Xia,Linfang Hou,Xiangyu Zhao,Dawei Yin
0+阅读 · 5月5日
Tim Keil,Mario Ohlberger
0+阅读 · 5月4日
Aravind Srinivas,Michael Laskin,Pieter Abbeel
10+阅读 · 2020年4月28日
Deyu Bo,Xiao Wang,Chuan Shi,Meiqi Zhu,Emiao Lu,Peng Cui
3+阅读 · 2020年2月5日
Joseph Y. Halpern
4+阅读 · 2019年9月30日
Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
Yikang Shen,Shawn Tan,Alessandro Sordoni,Aaron Courville
3+阅读 · 2018年11月21日
Invariant Information Distillation for Unsupervised Image Segmentation and Clustering
Xu Ji,João F. Henriques,Andrea Vedaldi
4+阅读 · 2018年7月21日
Relational recurrent neural networks
Adam Santoro,Ryan Faulkner,David Raposo,Jack Rae,Mike Chrzanowski,Theophane Weber,Daan Wierstra,Oriol Vinyals,Razvan Pascanu,Timothy Lillicrap
7+阅读 · 2018年6月28日
Top