要实现人工智能的梦想,就需要学会做出正确决策的自主系统。强化学习是这样做的一个强大范式,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程将提供强化学习领域的充实介绍,学生将学习强化学习的核心挑战和方法,包括推广和探索。通过讲课、书面作业和编码作业的结合,学生将学习RL的关键思想和技术。作业将包括强化学习的基础知识以及深度强化学习——一个结合了深度学习技术和强化学习的极具前景的新领域。

地址: https://web.stanford.edu/class/cs234/

学生能够学习到:

  • 定义强化学习与人工智能和非交互式机器学习的区别的关键特征。
  • 给定一个应用问题(例如,计算机视觉,机器人等),决定它是否应该被表述为RL问题;如果是,可以正- 式定义它(根据状态空间,行动空间,动态和奖励模型),说明什么算法(从类)是最适合解决它,并证明你的答案。
  • 在代码中实现通用的RL算法。
  • 描述(列出和定义)分析RL算法的多种标准,并根据这些指标评估算法:例如遗憾度、样本复杂度、计算复杂度、经验性能、收敛性等。
  • 描述探索与开发的挑战,并对至少两种解决这一挑战的方法进行比较和对比(从性能、可伸缩性、实现的复杂性和理论保证方面)。

内容目录:

  • Introduction to Reinforcement Learning
  • Tabular MDP planning
  • Tabular RL policy evaluation
  • Q-learning
  • RL with function approximation
  • Policy search
  • Exploration
  • Exploration / Exploitation
  • Batch Reinforcement Learning
  • Monte Carlo Tree Search
成为VIP会员查看完整内容
0
35

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

本课程关注控制理论和强化学习的理论介绍,侧重于连续状态空间以及物理世界和机器人技术的应用。我们强调计算效率的算法和可证明的界。特别关注RL中非随机控制和遗憾最小化的新方法。我们将与该领域的经典方法论进行比较和对比。

本课程的练习和项目将需要用python编写代码。

这门课程对所有学生开放,但要求有很强的数学背景。

https://sites.google.com/view/cos59x-cct/home

深度学习的先驱、图灵奖获得者Yann Lecun教授有一种非常简洁明了地抓住问题症结的气质。2020年2月左右,他在巴巴多斯研讨会上说,

“控制=梯度强化学习”。

强化学习和控制理论的关键区别在于它们所操作的空间。强化学习的范围通常位于离散状态空间(如围棋、国际象棋),而控制理论通常处理涉及物理和连续空间(如机器人)的问题。物理学和结构环境的知识使我们能够利用差分信息。

后者允许我们使用强大的数学优化和凸松弛技术来设计高效的算法。这是自适应非随机控制理论的主题,也是本课程的主题。

成为VIP会员查看完整内容
0
30

强化学习(RL)作为一种可行且强大的技术,正逐渐成为一种解决各种复杂业务问题的技术,这些问题涉及不确定条件下的连续优化决策。尽管RL被归类为机器学习(ML)的一个分支,但它往往与ML(监督学习和非监督学习)的其他分支有很大的不同。事实上,RL似乎掌握着开启人工智能前景的钥匙——机器可以根据观察到的异常信息调整决策,同时不断转向最佳结果。它在无人驾驶汽车、机器人和策略游戏等备受关注的问题上的应用,预示着未来RL算法将拥有远超人类的决策能力。但是当谈到RL的学习应用时,人们似乎不愿意直接进入。我们经常听到甚至技术人员声称RL涉及“高等数学”和“复杂工程”,所以似乎有一个心理障碍进入。虽然现实世界的RL算法和实现在克服众所周知的最后业务问题时确实变得相当复杂,但是RL的基础实际上不需要繁重的技术机器就可以学会。本书的核心目的是通过在理解的深度和保持基本技术内容之间找到平衡来揭开RL的神秘面纱。因此,我们将学习:

  • 您将了解简单而强大的马尔可夫决策过程(MDPs)理论——不确定情况下的序列最优决策框架。您将坚定地理解Bellman方程的力量,它是所有动态规划和所有RL算法的核心。

  • 您将掌握动态规划(DP)算法,这是一类(用人工智能的语言)规划算法。您将学习策略迭代、值迭代、逆向归纳、近似动态规划和广义策略迭代的重要概念,它是所有DP和所有RL算法的核心。

  • 您将获得各种强化学习(RL)算法的坚实的理解,从基本算法如SARSA和Q-Learning,并进入学习在实践中工作得很好的几个重要的算法,包括梯度时间差分,深度Q网络,最小二乘策略迭代,策略梯度,蒙特卡罗树搜索。您将了解如何利用bootstrapping、off-policy学习和基于深度神经网络的函数逼近在这些算法中获得优势。您还将学习如何平衡探索和利用Multi-Armed Bandits技术,如置信上限,汤普森采样,梯度盗匪和信息状态空间算法。

  • 您将练习大量的模型和算法的“从头开始”Python实现。贯穿全书,我们强调了良好的Python编程实践,包括接口设计、类型注释、函数式编程和基于继承的多态(始终确保编程原则反映数学原则)。从这本书中获得的更大的收获是一种将应用数学概念与软件设计范例相结合的罕见的(高需求的)能力。

成为VIP会员查看完整内容
0
65

【导读】本文为大家带来了一份斯坦福大学的最新课程CS330——深度多任务和元学习,主讲人是斯坦福大学Chelsea Finn,她是斯坦福大学计算机科学与电气工程系的助理教授,元学习大牛。

她的博士论文——基于梯度的元学习(Learning to Learn with Gradients)很值得一读,该论文系统性地阐述了Meta Learning以及她提出的MAML的方法和相关改进。作者从Meta Learning问题出发,然后提出了MAML理论,再进行一系列基于该理论的应用尝试。

尽管深度学习在图像分类、语音识别和游戏等有监督和强化学习问题上取得了显著的成功,但这些模型在很大程度上是专门用于训练它们的单一任务的。本课程将涵盖需要解决多个任务的环境,并研究如何利用多个任务产生的结构来更有效地学习。

介绍

尽管深度学习在图像分类、语音识别和游戏等有监督和强化学习问题上取得了显著的成功,但这些模型在很大程度上是专门用于训练它们的单一任务的。本课程将涵盖需要解决多个任务的环境,并研究如何利用多个任务产生的结构来更有效地学习。

**这包括: ** 以目标为条件的强化学习技术,它利用所提供的目标空间的结构来快速地学习多个任务; 元学习方法旨在学习可以快速学习新任务的高效学习算法; 课程和终身学习,其中问题需要学习一系列任务,并利用它们的共享结构来实现知识转移。

这是一门研究生水平的课程。在课程结束时,学生将能够理解和实施最先进的多任务学习和元学习算法,并准备对这些主题进行研究。

课程链接: https://cs330.stanford.edu/

课程安排

课程安排

01: 课程介绍,问题定义,应用(Course introduction, problem definitions, applications) 02:有监督的多任务学习,黑盒元学习(Supervised multi-task learning, black-box meta-learning) 03:TensorFlow教程(TensorFlow tutorial) 04:基于优化的元学习(Optimization-based meta-learning) 05:通过度量学习进行少量学习(Few-shot learning via metric learning) 06:贝叶斯元学习(Bayesian meta-learning) 07:强化学习入门,多任务RL,目标条件RL(Renforcement learning primer, multi-task RL, goal-conditioned RL) 08:Meta-RL,学习探索(Meta-RL, learning to explore) 09:用于多任务学习的基于模型的RL,基于元模型的RL(Model-based RL for multi-task learning, meta model-based RL) 10:终身学习:问题陈述,前后迁移(Lifelong learning: problem statement, forward & backward transfer) 11:前沿: 记忆,无监督元学习,开放性问题(Frontiers: Memorization, unsupervised meta-learning, open problems)

成为VIP会员查看完整内容
0
40

现代人工智能(AI)系统通常需要在一个未知的、不确定的、可能敌对的环境中,通过积极地与环境交互来收集相关数据,从而做出连续的决策。强化学习(RL)是一个通用框架,可以捕获交互式学习设置,并已被用于设计智能代理,以实现超人水平的表现,在具有挑战性的任务,如围棋,电脑游戏,机器人操作。

这门研究生水平的课程着重于强化学习的理论和算法基础。本课程的四个主题为: (1)可证明有效的探索; (2)策略优化(特别是策略梯度); (3)控制; (4)模仿学习。

通过本课程,学生将能够理解经典的和最新的可证明正确的RL算法及其分析。学生将能够对与RL相关的课题进行研究。

成为VIP会员查看完整内容
0
42

本文为大家带来了一份斯坦福大学的最新课程CS234——强化学习,主讲人是斯坦福大学Emma Brunskill,她是斯坦福大学计算机科学助理教授,任职斯坦福大学人类影响力实验室、斯坦福人工智能实验室以及统计机器学习小组,主要研究强化学习。要实现人工智能的梦想和影响,需要能够学会做出正确决策的自主系统。强化学习是这样做的一个强有力的范例,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程通过讲课、书面作业和编码作业的结合,学生将精通强化学习的关键思想和技术。

1.课程介绍(Description)

要实现人工智能的梦想和影响,需要能够学会做出正确决策的自主系统。强化学习是这样做的一个强有力的范例,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程将为强化学习领域提供扎实的介绍,学生将学习包括通用化和探索在内的核心挑战和方法。通过讲课、书面作业和编码作业的结合,学生将精通强化学习的关键思想和技术。作业将包括强化学习和深度强化学习的基础,这是一个极有前途的新领域,将深度学习技术与强化学习相结合。此外,学生将通过期末专题来增进对强化学习领域的理解。

课程地址:

https://web.stanford.edu/class/cs234/schedule.html

2.预备知识(Prerequisites)

1)熟练Python

所有的课程都将使用Python(使用numpy和Tensorflow,也可以使用Keras)。这里有一个针对那些不太熟悉Python的人的教程。如果你有很多使用不同语言(如C/ c++ / Matlab/ Javascript)的编程经验,可能会很好。

2)大学微积分,线性代数(如 MATH 51, CME 100)

你应该能够熟练地进行(多变量)求导,理解矩阵/向量符号和运算。

3)基本概率及统计(例如CS 109 或同等课程)

你应该了解基本的概率,高斯分布,均值,标准差等。

4)机器学习基础

我们将阐述成本函数,求导数,用梯度下降法进行优化。CS 221或CS 229均可涵盖此背景。使用一些凸优化知识,一些优化技巧将更加直观。

3.主讲:Emma Brunskill

Emma Brunskill是斯坦福大学计算机科学助理教授,任职斯坦福大学人类影响力实验室、斯坦福人工智能实验室以及统计机器学习小组。

主要研究强化学习系统,以帮助人们更好地生活。并处理一些关键技术。最近的研究重点包括:1)有效强化学习的基础。一个关键的挑战是要了解代理商如何平衡勘探与开发之间的局限性。2)如果要进行顺序决策,该怎么办。利用巨大数量的数据来改善在医疗保健,教育,维护和许多其他应用程序中做出的决策,这是一个巨大的机会。这样做需要假设/反事实推理,以便在做出不同决定时对潜在结果进行推理。3)人在回路系统。人工智能具有极大地扩大人类智能和效率的潜力。我们正在开发一个系统,用其他众包商(CHI 2016)生产的(机器)固化材料对众包商进行训练,并确定何时扩展系统规格以包括新内容(AAAI 2017)或传感器。我们也有兴趣研究确保机器学习系统在人类用户的意图方面表现良好(Arxiv 2017),也被称为安全和公平的机器学习。

个人主页:https://cs.stanford.edu/people/ebrun/

4.课程安排

01: 强化学习导论(Introduction to Reinforcement Learning)

02: 表格MDP规划(Tabular MDP planning)

03: 表格RL政策评估(Tabular RL policy evaluation)

04: Q-learning

05: 带函数逼近的强化学习(RL with function approximation)

06: 带函数逼近的强化学习(RL with function approximation)

07: 带函数逼近的强化学习(RL with function approximation)

08: 从马尔可夫决策过程到强化学习(Policy search)

09: 从马尔可夫决策过程到强化学习(Policy search)

10: 课堂中期(In-class Midterm)

11: 模仿学习/探索(Imitation learning/Exploration)

12: 探索/开发(Exploration/Exploitation)

13: 探索/开发(Exploration/Exploitation)

14: 批处理强化学习(Batch Reinforcement Learning)

15: 嘉宾讲座:Craig Boutilier(Guest Lecture: Craig Boutilier)

16: 课堂测验(In-class Quiz)

17: 蒙特卡洛树搜索算法(Monte Carlo Tree Search)

18: 墙报展示(Poster presentations)

成为VIP会员查看完整内容
0
54
小贴士
相关VIP内容
专知会员服务
30+阅读 · 2020年12月24日
专知会员服务
65+阅读 · 2020年12月22日
专知会员服务
24+阅读 · 2020年10月26日
专知会员服务
42+阅读 · 2020年9月27日
专知会员服务
39+阅读 · 2020年8月30日
专知会员服务
79+阅读 · 2020年2月1日
专知会员服务
54+阅读 · 2020年1月15日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
12+阅读 · 2019年11月19日
相关论文
Arthur Argenson,Gabriel Dulac-Arnold
0+阅读 · 3月17日
Jessica B. Hamrick,Abram L. Friesen,Feryal Behbahani,Arthur Guez,Fabio Viola,Sims Witherspoon,Thomas Anthony,Lars Buesing,Petar Veličković,Théophane Weber
0+阅读 · 3月17日
Jacob E. Kooi,Robert Babuška
0+阅读 · 3月16日
Cat P. Le,Mohammadreza Soltani,Robert Ravier,Vahid Tarokh
0+阅读 · 3月15日
Linsen Dong,Guanyu Gao,Xinyi Zhang,Liangyu Chen,Yonggang Wen
0+阅读 · 3月15日
gym-gazebo2, a toolkit for reinforcement learning using ROS 2 and Gazebo
Nestor Gonzalez Lopez,Yue Leire Erro Nuin,Elias Barba Moral,Lander Usategui San Juan,Alejandro Solano Rueda,Víctor Mayoral Vilches,Risto Kojcev
5+阅读 · 2019年3月14日
Logically-Constrained Reinforcement Learning
Mohammadhosein Hasanbeig,Alessandro Abate,Daniel Kroening
3+阅读 · 2018年12月6日
Jingkang Wang,Yang Liu,Bo Li
3+阅读 · 2018年10月5日
Yuxiang Wu,Baotian Hu
6+阅读 · 2018年4月19日
Ming Jin,Andreas Damianou,Pieter Abbeel,Costas Spanos
3+阅读 · 2017年5月4日
Top