【斯坦福2021新书】决策算法,694页pdf阐述不确定性决策算法

1 月 27 日 专知
【斯坦福2021新书】决策算法,694页pdf阐述不确定性决策算法

hms for solving them.

这本书提供了一个广泛的不确定性决策的算法介绍。我们涵盖了与决策相关的各种主题,介绍了潜在的数学问题公式和解决它们的算法。

本文面向高级本科生、研究生和专业人员。本书要求具有一定的数学基础,并假定预先接触过多变量微积分、线性代数和概率概念。附录中提供了一些复习材料。这本书特别有用的学科包括数学、统计学、计算机科学、航空航天、电气工程和运筹学。


这本教科书的基础是算法,它们都是用Julia编程语言实现的。这本允许免费使用与本书相关的代码片段,条件是必须确认代码的来源。我们预计其他人可能想把这些算法翻译成其他编程语言。随着翻译版本的发布,我们将从该书的网页上链接到它们。


许多重要的问题都涉及不确定性下的决策,包括飞机碰撞避免、灾害管理和灾难反应。在设计自动化决策系统或决策支持系统时,在做出或推荐决策时考虑各种不确定性来源是很重要的。考虑到这些不确定性的来源并仔细平衡系统的多个目标是非常具有挑战性的。我们将从计算的角度讨论这些挑战,旨在提供决策模型和计算方法背后的理论。本章介绍了不确定性下的决策问题,提供了一些应用实例,并概述了可能的计算方法的空间。本章总结了各种学科对我们理解智能决策的贡献,并强调了潜在社会影响的领域。我们以本书其余部分的大纲结束。


https://algorithmsbook.com/


  1. Introduction

PART I: PROBABILISTIC REASONING

  1. Representation

  2. Inference

  3. Parameter Learning

  4. Structure Learning

  5. Simple Decisions

PART II: SEQUENTIAL PROBLEMS

  1. Exact Solution Methods

  2. Approximate Value Functions

  3. Online Planning

  4. Policy Search

  5. Policy Gradient Estimation

  6. Policy Gradient Optimization

  7. Actor-Critic Methods

  8. Policy Validation

PART III: MODEL UNCERTAINTY

  1. Exploration and Exploitation

  2. Model-Based Methods

  3. Model-Free Methods

  4. Imitation Learning

PART IV: STATE UNCERTAINTY

  1. Beliefs

  2. Exact Belief State Planning

  3. Offline Belief State Planning

  4. Online Belief State Planning

  5. Controller Abstractions

PART V: MULTIAGENT SYSTEMS

  1. Multiagent Reasoning

  2. Sequential Problems

  3. State Uncertainty

  4. Collaborative Agents

APPENDICES

  1. A: Mathematical Concepts

  2. B: Probability Distributions

  3. C: Computational Complexity

  4. D: Neural Representations

  5. E: Search Algorithms

  6. F: Problems

  7. G: Julia

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“A694” 可以获取【斯坦福2021新书】决策算法,694页pdf阐述不确定性决策算法专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

强化学习(RL)作为一种可行的、强大的技术,用于解决各种复杂的跨行业业务问题,包括在不确定性下的顺序优化决策。尽管RL被归类为机器学习(ML)的一个分支,但它的看待和处理方式往往与机器学习的其他分支(监督和非监督学习)非常不同。事实上,RL似乎掌握了开启人工智能前景的关键——人工智能可以根据观察到的信息的变化来调整决策,同时不断朝着最优结果前进。RL算法在无人驾驶汽车、机器人和策略游戏等备受瞩目的问题上的渗透,预示着未来RL算法的决策能力将远超人类。

本书重点研究支撑RL的基础理论。我们对这一理论的处理是基于本科水平的概率、优化、统计和线性代数。我们强调严谨但简单的数学符号和公式来发展理论,并鼓励你把方程写出来,而不是仅仅从书中阅读。偶尔,我们引用一些高等数学(如:随机微积分),但本书的大部分是基于容易理解的数学。特别是,两个基本的理论概念- Bellman最优方程和广义策略迭代-贯穿全书,因为它们构成了我们在RL中所做的几乎所有事情的基础,甚至在最先进的算法中。

本书第二部分用动态规划或强化学习算法解决的金融应用。作为随机控制问题的许多金融应用的一个基本特征是,模型MDP的回报是效用函数,以捕捉金融回报和风险之间的权衡。

成为VIP会员查看完整内容
0
31

本课程(以及本教材)的目标是为最广泛使用的学习架构展示学习理论的旧成果和新成果。本课程面向的是理论导向型的学生,以及那些想要获得基本数学理解的学生,这些学生在机器学习和相关领域中使用了大量的学习方法,如计算机视觉或自然语言处理。为了证明从第一性原理得出的许多结果,将作出特别的努力,同时使阐明尽可能简单。这将自然导致选择的关键结果,在简单但相关的实例中展示学习理论的重要概念。在没有证明的情况下,也将给出一些一般的结果。当然,第一性原理的概念是主观的,我将假定有良好的线性代数、概率论和微分的知识。

https://www.di.ens.fr/~fbach/learning_theory_class/index.html

目录内容:

无线数据学习 Learning with infinite data (population setting) -Decision theory (loss, risk, optimal predictors) -Decomposition of excess risk into approximation and estimation errors -No free lunch theorems -Basic notions of concentration inequalities (MacDiarmid, Hoeffding, Bernstein) 线性最小二乘回归 Liner Least-squares regression -Guarantees in the fixed design settings (simple in closed-form) -Ridge regression: dimension independent bounds -Guarantees in the random design settings -Lower bound of performance 经验风险最小化 Empirical risk minimization -Convexification of the risk -Risk decomposition -Estimation error: finite number of hypotheses and covering numbers -Rademacher complexity -Penalized problems 机器学习的优化 Optimization for machine learning -Gradient descent -Stochastic gradient descent -Generalization bounds through stochastic gradient descent 局部平均技术 Local averaging techniques -Partition estimators -Nadaraya-Watson estimators -K-nearest-neighbors -Universal consistency 核方法 Kernel methods -Kernels and representer theorems -Algorithms -Analysis of well-specified models -Sharp analysis of ridge regression -Universal consistency 模型选择 Model selection -L0 penalty -L1 penalty -High-dimensional estimation 神经网络 Neural networks -Single hidden layer neural networks

  • Estimation error
  • Approximation properties and universality 特别主题 Special topics -Generalization/optimization properties of infinitely wide neural networks -Double descent
成为VIP会员查看完整内容
0
44

这本书提供了一个广泛的不确定性决策的算法介绍。我们涵盖了与决策相关的各种主题,介绍了潜在的数学问题公式和解决它们的算法。

本文面向高级本科生、研究生和专业人员。本书要求具有一定的数学基础,并假定预先接触过多变量微积分、线性代数和概率概念。附录中提供了一些复习材料。这本书特别有用的学科包括数学、统计学、计算机科学、航空航天、电气工程和运筹学。

这本教科书的基础是算法,它们都是用Julia编程语言实现的。这本允许免费使用与本书相关的代码片段,条件是必须确认代码的来源。我们预计其他人可能想把这些算法翻译成其他编程语言。随着翻译版本的发布,我们将从该书的网页上链接到它们。

许多重要的问题都涉及不确定性下的决策,包括飞机碰撞避免、灾害管理和灾难反应。在设计自动化决策系统或决策支持系统时,在做出或推荐决策时考虑各种不确定性来源是很重要的。考虑到这些不确定性的来源并仔细平衡系统的多个目标是非常具有挑战性的。我们将从计算的角度讨论这些挑战,旨在提供决策模型和计算方法背后的理论。本章介绍了不确定性下的决策问题,提供了一些应用实例,并概述了可能的计算方法的空间。本章总结了各种学科对我们理解智能决策的贡献,并强调了潜在社会影响的领域。我们以本书其余部分的大纲结束。

https://algorithmsbook.com/

Introduction

  • PART I: PROBABILISTIC REASONING Representation
  • PART II: SEQUENTIAL PROBLEMS Exact Solution Methods
  • PART III: MODEL UNCERTAINTY Exploration and Exploitation
  • PART V: MULTIAGENT SYSTEMS Multiagent Reasoning
成为VIP会员查看完整内容
0
84

要实现人工智能的梦想,就需要学会做出正确决策的自主系统。强化学习是这样做的一个强大范式,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程将提供强化学习领域的充实介绍,学生将学习强化学习的核心挑战和方法,包括推广和探索。通过讲课、书面作业和编码作业的结合,学生将学习RL的关键思想和技术。作业将包括强化学习的基础知识以及深度强化学习——一个结合了深度学习技术和强化学习的极具前景的新领域。

地址: https://web.stanford.edu/class/cs234/

学生能够学习到:

  • 定义强化学习与人工智能和非交互式机器学习的区别的关键特征。
  • 给定一个应用问题(例如,计算机视觉,机器人等),决定它是否应该被表述为RL问题;如果是,可以正- 式定义它(根据状态空间,行动空间,动态和奖励模型),说明什么算法(从类)是最适合解决它,并证明你的答案。
  • 在代码中实现通用的RL算法。
  • 描述(列出和定义)分析RL算法的多种标准,并根据这些指标评估算法:例如遗憾度、样本复杂度、计算复杂度、经验性能、收敛性等。
  • 描述探索与开发的挑战,并对至少两种解决这一挑战的方法进行比较和对比(从性能、可伸缩性、实现的复杂性和理论保证方面)。

内容目录:

  • Introduction to Reinforcement Learning
  • Tabular MDP planning
  • Tabular RL policy evaluation
  • Q-learning
  • RL with function approximation
  • Policy search
  • Exploration
  • Exploration / Exploitation
  • Batch Reinforcement Learning
  • Monte Carlo Tree Search
成为VIP会员查看完整内容
0
33

许多重要的问题都涉及不确定性下的决策,包括飞机碰撞避免、灾害管理和灾难反应。在设计自动化决策系统或决策支持系统时,在做出或推荐决策时考虑各种不确定性来源是很重要的。考虑到这些不确定性的来源并仔细平衡系统的多个目标是非常具有挑战性的。我们将从计算的角度讨论这些挑战,旨在提供决策模型和计算方法背后的理论。本章介绍了不确定性下的决策问题,提供了一些应用实例,并概述了可能的计算方法的空间。本章总结了各种学科对我们理解智能决策的贡献,并强调了潜在社会影响的领域。我们以本书其余部分的大纲结束。

https://github.com/sisl/algorithmsbook

成为VIP会员查看完整内容
0
57

为土木工程专业的学生和专业人士介绍概率机器学习的关键概念和技术;有许多循序渐进的例子、插图和练习。

这本书向土木工程的学生和专业人员介绍了概率机器学习的概念,以一种对没有统计学或计算机科学专业背景的读者可访问的方式提出了关键的方法和技术。通过一步步的例子、插图和练习,它清晰而直接地展示了不同的方法。掌握了材料,读者将能够理解更高级的机器学习文献,从这本书中提取。

本书介绍了概率机器学习的三个子领域的关键方法:监督学习、非监督学习和强化学习。它首先涵盖了理解机器学习所需的背景知识,包括线性代数和概率论。接着介绍了有监督和无监督学习方法背后的贝叶斯估计,以及马尔可夫链蒙特卡洛方法,该方法使贝叶斯估计能够在某些复杂情况下进行。这本书接着涵盖了与监督学习相关的方法,包括回归方法和分类方法,以及与非监督学习相关的概念,包括聚类、降维、贝叶斯网络、状态空间模型和模型校准。最后,本书介绍了不确定环境下理性决策的基本概念,以及不确定和序列上下文下理性决策的基本概念。在此基础上,这本书描述了强化学习的基础,虚拟代理学习如何通过试验和错误作出最优决策,而与它的环境交互。

目录内容: Chapter 1: 引言 Introduction Part one: 背景 Background
Chapter 2: 线性代数 Chapter 3: 概率理论 Probability Theory Chapter 4: 概率分布 Probability Distributions Chapter 5: 凸优化 Convex Optimization Part two: 贝叶斯估计 Bayesian Estimation Chapter 6: 从数据中学习 Learning from Data Chapter 7: 马尔科夫链蒙特卡洛 Markov Chain Monte Carlo
Part three: 监督学习 Supervised Learning Chapter 8: 回归 Regression Chapter 9: 分类 Classification Part four: 无监督学习 Unsupervised Learning Chapter 10: 聚类 Clustering Chapter 11: 贝叶斯网络 Bayesian Networks Chapter 12: 状态空间 State-Space Models Chapter 13: 模型 Model Calibration Part five: 强化学习 Reinforcement Learning Chapter 14: 不确定上下文决策 Decision in Uncertain Contexts Chapter 15: 序列决策 Sequential Decisions

成为VIP会员查看完整内容
0
47

这本书来自统计学习课程,这是一门统计机器学习的入门课程,面向具有一些微积分、线性代数和统计学背景的学生。这门课程的重点是监督学习:分类和回归。本课程将涵盖机器学习和数据科学中使用的一系列方法,包括:

  • 线性回归(包括岭回归和Lasso)
  • 通过logistic回归和k近邻进行分类
  • 线性和二次判别分析
  • 回归和分类树(包括套袋林和随机林)
  • Boosting
  • 神经网络和深度学习

这些方法将在整个课程中被研究并应用于来自各种应用的真实数据。课程还涵盖了一些重要的实际问题,如交叉验证、模型选择和偏方差权衡。课程包括理论(例如,推导和证明)以及实践(特别是实验室和小型项目)。实际部分将使用Python实现。

成为VIP会员查看完整内容
0
81

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
93

前言: 目标:本课程旨在让学生对人工智能的基本概念和实践有一个坚实的(通常是有点理论性的)基础。这门课程在第一学期主要涉及符号化的人工智能,有时也被称为优秀的老式人工智能(GofAI),并在第二学期提供统计方法的基础。事实上,一个完整的基于机器学习的AI应该有专业课程,并且需要比我们在这门课程中更多的数学基础。

课程内容

目标: 使学生对人工智能领域的基本概念和实践有一个坚实的基础。该课程将基于Russell/Norvig的书《人工智能》:现代方法[RN09]

Artificial Intelligence I(第一部分): 介绍人工智能作为一个研究领域,讨论作为人工智能统一概念范式的理性代理,并涵盖问题解决、搜索、约束传播、逻辑、知识表示和规划。

Artificial Intelligence II(第二部分): 更倾向于让学生接触基于统计的人工智能的基础知识:我们从不确定性下的推理开始,用贝叶斯网络建立基础,并将其扩展到理性决策理论。在此基础上,我们介绍了机器学习的基础知识。

成为VIP会员查看完整内容
0
105
小贴士
相关VIP内容
专知会员服务
31+阅读 · 3月30日
专知会员服务
47+阅读 · 2020年11月12日
专知会员服务
81+阅读 · 2020年6月27日
人工智能学习笔记,247页pdf
专知会员服务
105+阅读 · 2019年12月14日
MIT新书《强化学习与最优控制》
专知会员服务
112+阅读 · 2019年10月9日
相关论文
Omar Adjali,Romaric Besançon,Olivier Ferret,Herve Le Borgne,Brigitte Grau
0+阅读 · 4月7日
Robert Dyro,James Harrison,Apoorva Sharma,Marco Pavone
0+阅读 · 4月6日
Joel Oren,Chana Ross,Maksym Lefarov,Felix Richter,Zohar Feldman,Christian Daniel,Dotan Di Castro
0+阅读 · 4月4日
Yatin Nandwani,Deepanshu Jindal, Mausam,Parag Singla
0+阅读 · 4月4日
Joey Hong,Branislav Kveton,Manzil Zaheer,Yinlam Chow,Amr Ahmed
0+阅读 · 4月4日
Ugo de'Liguoro,Riccardo Treglia
0+阅读 · 4月3日
Wenwu Zhu,Xin Wang,Peng Cui
18+阅读 · 2020年1月2日
Zhihao Jia,Sina Lin,Rex Ying,Jiaxuan You,Jure Leskovec,Alex Aiken
3+阅读 · 2019年6月9日
Sham Kakade,Mengdi Wang,Lin F. Yang
3+阅读 · 2018年4月25日
Top