题目: Reinforcement Learning:Theory and Algorithms

简介:

强化学习是近几年研究的热点,特别是伴随DeepMind AlphaGo的出现名声大噪。强化学习(RL)是一种机器学习范式,在这种范式中,agent从经验中学习完成顺序决策任务,RL在机器人、控制、对话系统、医疗等领域有广泛的应用。《强化学习:理论与算法》这本书讲述了强化学习最新进展,包括MDP、样本复杂度、策略探索、PG、值函数等关键议题,是了解强化学习的材料。

章节:

  • 第一章:马尔科夫决策过程MDP 预介绍
  • 第二章:生成模型的样本复杂度
  • 第三章:强化学习的策略探索
  • 第四章:策略梯度方法
  • 第五章:值函数近似
  • 第六章:RL的战略探索和丰富的观测资料
  • 第七章:行为克隆和学徒学习

作者简介:

Alekh Agarwal目前是微软人工智能研究中心的研究员,领导强化学习研究小组。之前,在加州大学伯克利分校获得计算机科学博士学位后,与彼得·巴特利特(Peter Bartlett)和马丁·温赖特(Martin Wainwright)一起在纽约微软研究院(Microsoft Research)度过了六年美好的时光。

姜楠,UIUC助理教授,机器学习研究员。核心研究领域是强化学习(RL),关注于RL的样本效率,并利用统计学习理论中的思想来分析和开发RL算法。

沙姆·卡卡德(Sham M. Kakade)是华盛顿研究基金会(Washington Research Foundation)数据科学主席,同时在华盛顿大学(University of Washington)艾伦学院(Allen School)和统计学系任职。他致力于机器学习的理论基础,专注于设计(和实现)统计和计算效率的算法。

成为VIP会员查看完整内容
rl_monograph_AJK.pdf
31+
0+

相关内容

姜楠,UIUC助理教授,机器学习研究员。核心研究领域是强化学习(RL),关注于RL的样本效率,并利用统计学习理论中的思想来分析和开发RL算法。

【导读】越来越明显的是,广泛采用的机器学习模型可能导致歧视性结果,并可能加剧训练数据之间的差异。随着越来越多的机器学习用于现实世界中的决策任务,必须解决机器学习中的偏见和公平问题。我们的动机是,在各种新兴方法中,表示学习为评估和潜在地减轻不公平现象提供了独特的工具集。本教程介绍了现有的研究,并提出了在表示学习和公平的交集中存在的开放性问题。我们将研究学习公平任务不可知表示的可能性(不可能性),公平性和泛化性能之间的联系,以及利用来自表示形式学习的工具来实现算法上的个人和群体公平性的机会。本教程旨在为广大的机器学习实践者提供帮助,并且必要的背景知识是预测性机器学习的工作知识。

作者介绍

Sanmi Koyejo,伊利诺伊大学香槟分校计算机科学系助理教授。

研究综述: 我们的研究兴趣是开发自适应鲁棒机器学习的原理和实践。最近的一些亮点包括:1)可伸缩的、分布式的和容错的机器学习;2)度量引出;通过人机交互选择更有效的机器学习指标。我们的应用研究主要集中在认知神经成像和生物医学成像方面。最近的一些重点包括①生物图像的生成模型,②时变脑电图的估计和分析。

http://sanmi.cs.illinois.edu/

成为VIP会员查看完整内容
16+
0+

书名题目

强化学习:理论与算法(Reinforcement Learning: Theory and Algorithms)

籍简介

本书由Alekh Agarwal, Nan Jiang, Sham M. Kakade三位大师亲自执笔,为2019关于强化学习的最新书籍之一,三位作者来自于强化学习研究团队,是强化学习研究界“牛顿”级人物,成果斐然。本书采用深入浅出,引人入胜的方法,介绍了当前RL所取得的最新成果,对于刚从事RL的学者,可谓及时雨,神笔之作。

书籍作者

Alekh Agarwal,目前是微软研究人工智能的研究员,在那里我领导强化学习研究小组。此前,在加州大学伯克利分校获得计算机科学博士学位后,曾在微软研究院纽约实验室度过了六年时光,与彼得·巴特利特和马丁·温瑞格一起工作。 Sham M. Kakade ,研究机器学习和人工智能的数学基础,重点是设计可证明的高效和实用的算法,这些算法与广泛的范例相关。试图利用这些进步来帮助在核心人工智能问题上取得进展。目前的兴趣包括:强化学习和控制表征学习和自然语言处理和记忆。

成为VIP会员查看完整内容
强化学习:理论与算法.pdf
23+
0+

作者介绍: Cornelius Weber拥有德国比勒费尔德大学的物理学博士学位。 他于2000年在德国柏林的柏林工业大学获得计算机科学博士学位。他是德国University of Hamburg知识技术小组的实验室主任。 他曾是美国纽约州罗彻斯特大学的脑与认知科学博士后研究员。 从2002年到2005年,他在英国桑德兰大学担任混合智能系统研究科学家。在2010年之前,他是法兰克福高级研究所的资深研究员。他目前的研究兴趣包括计算神经科学,重点是视觉,无监督学习和强化学习。

简要介绍: 大脑统治着整个世界,类脑计算越来越多地用于计算机和电子设备中。 类脑计算是关于处理和解释数据或直接提出并执行动作。 学习是一个非常重要的方面。 这本书是关于强化学习的,涉及为实现目标而采取的行动。 本书的前11章介绍并扩展了强化学习的范围。 其余11章表明,在许多领域中已经有了广泛的使用。 增强学习可以解决对于传统的手工设计的非学习控制器来说过于复杂的控制任务。 由于学习计算机可以处理技术复杂性,因此操作人员的任务仍然是在越来越高的水平上指定目标。 本书表明,强化学习在理论和应用方面是一个非常活跃的领域,它将激发并鼓励该领域的新研究。

下载链接: https://pan.baidu.com/s/19M6dsNWn90kutFTynqKZjQ

提取码:mivq

成为VIP会员查看完整内容
14+
0+

书籍介绍: 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机器学习是人工智能及模式识别领域的共同研究热点,其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。本书从机器学习的基础入手,分别讲述了分类、排序、降维、回归等机器学习任务,是入门机器学习的一本好书。

作者: Mehryar Mohri,是纽约大学库兰特数学科学研究所的计算机科学教授,也是Google Research的研究顾问。

大纲介绍:

  • 介绍
  • PAC学习框架
  • rademacher复杂度和VC维度
  • 支持向量机
  • 核方法
  • Boosting
  • 线上学习
  • 多类别分类
  • 排序
  • 回归
  • 算法稳定性
  • 降维
  • 强化学习

作者主页https://cs.nyu.edu/~mohri/

成为VIP会员查看完整内容
13+
0+

报告主题: Explanation In AI: From Machine Learning To Knowledge Representation And Reasoning And Beyond

嘉宾介绍: Freddy Lecue博士是加拿大蒙特利尔泰勒斯人工智能技术研究中心的首席人工智能科学家。他也是法国索菲亚安提波利斯温姆斯的INRIA研究所的研究员。在加入泰雷兹新成立的人工智能研发实验室之前,他曾于2016年至2018年在埃森哲爱尔兰实验室担任人工智能研发主管。在加入埃森哲之前,他是一名研究科学家,2011年至2016年在IBM research担任大规模推理系统的首席研究员,2008年至2011年在曼彻斯特大学(University of Manchester)担任研究员,2005年至2008年在Orange Labs担任研究工程师。

成为VIP会员查看完整内容
Alberta-FreddyLecue-Thales-XAI-ExplanationInAI-FromMachineLearningToKnowledgeRepresentationAndReasoningAndBeyond.pdf
8+
0+

报告名称: Modern Artificial Intelligence

报告简介: 纽约大学丹东分校的电气和计算机工程系举办了一个研讨会系列,探讨了人工智能(AI)世界上最重要的新研究,其中有为新兴技术做出了重要贡献的研究人员。

报告部分大纲:

  • 使用因果不变性学习表示
  • 基于网络的分布式机器学习
  • 复杂环境中的深度强化学习的挑战
  • 在机器人系统中使用计算机视觉的研究挑战
  • 机器学习个性化
  • 迈向持久的人机交互
  • 记忆生物学和与年龄有关的记忆丧失

邀请嘉宾:

Leon Bottou是一名研究科学家,对机器学习和人工智能有着广泛的兴趣。近年来,在大规模学习和随机梯度算法方面的工作受到了广泛的关注。他也以DjVu文件压缩系统而闻名,于2015年3月加入Facebook人工智能研究。

Francis Bach是Inria的研究员,自2011年以来一直领导着隶属于巴黎高等师范学院计算机科学系的机器学习团队。他毕业于加州理工学院,2005年在加州大学伯克利分校获得计算机科学博士学位,师从迈克尔·乔丹教授。他在巴黎矿业大学数学形态学组学习了两年,然后在2007年至2010年期间加入了Inria/Ecole Normale Superieure计算机视觉项目组。Francis Bach主要对机器学习感兴趣,特别是在稀疏方法、基于核的学习、大规模优化、计算机视觉和信号处理方面。

Raia Hadsel是DeepMind机器人研究的负责人,ICLR,WiML和CoRL的执行董事会成员。她的早期研究是使用暹罗网络来学习神经嵌入,这种方法现在通常用于表示学习。在完成了具有针对移动机器人的自我监督式深度学习视觉系统的博士学位后,她继续在卡内基梅隆大学的机器人研究所和SRI International进行科学研究,并于2014年初加入伦敦的DeepMind研究人工智能。Hadsell博士目前的研究重点在于对AI代理和机器人进行持续学习的挑战,她提出了神经方法,例如策略提纯,渐进式网络和弹性权重合并,以解决灾难性遗忘问题。

成为VIP会员查看完整内容
4+
0+

课程题目: Emerging Challenges in Deep Learning

课程大纲:

  • 知识嵌入在语言神经网络中,但是它们可以推理吗?
  • 基于机器学习的蛋白质和小分子设计
  • 人与人之间的高效深度学习
  • 使ML目标与人类价值观相一致
  • 灵活的神经网络和元学习的前言
  • 价值函数近似的强化学习的难点
  • 特征空间中的强化学习:复杂性和遗憾
  • 决策过程中策略梯度方法的最优性和逼近性
  • 政策外政策优化
  • 推荐系统中的强化学习:一些挑战
  • 通过优化镜头进行强化学习
  • 迈向经过验证的深度学习
  • 将约束集成到具有结构化的深度学习架构中
  • 公平的衡量与错误衡量
  • 采购作为政策:机器学习的管理流程
  • 本地解释范式的内在取舍
  • 如何失败的可解释性研究
  • 从过去更好地学习:反事实/批量RL
  • 设计健壮的学习者

主讲人: Chris Manning,托马斯·西贝尔(Thomas M. Siebel)机器学习教授,语言学和计算机科学教授,斯坦福人工智能实验室(SAIL)主任,以人为中心的人工智能研究所副主任。

Jennifer Listgarten,是加州大学伯克利分校 EECS系 和计算生物学中心的教授, 伯克利AI研究(BAIR)实验室指导委员会成员 ,以及 Chan Zuckerberg研究人员。

Zachary Lipton,在UCSD 人工智能小组进行了出色的4年博士学位研究之后,加入了卡内基梅隆大学(CMU),担任Tepper商学院的助理教授,并在机器学习系(MLD)和亨氏公共政策学院担任副教授等。

课程链接: https://simons.berkeley.edu/workshops/schedule/10629

成为VIP会员查看完整内容
4+
0+

主题: Neural Approaches to Conversational AI

摘要: 开发一个智能对话系统,不仅可以模拟人类对话,还可以回答从电影明星的最新消息到爱因斯坦的相对论等各种主题的问题,并完成旅行计划等复杂任务,一直是人工智能最长的目标之一。这一目标直到最近才实现。随着大量的会话数据可用于训练,深度学习(DL)和强化学习(RL)的突破被应用到会话人工智能中,我们在学术界和工业界都看到了有希望的结果。在本教程中,我们首先简要介绍与对话人工智能相关的DL和RL的最新进展。然后,我们详细描述了为三种对话系统或机器人开发的最先进的神经方法。第一个是问答机器人。QA bot具有从各种数据源(包括Web文档和预编译的知识图)中提取的丰富知识,可以为用户查询提供简洁直接的答案。第二个是面向任务的对话系统,它可以帮助用户完成从会议安排到假期计划等任务。第三种是社交聊天聊天机器人,它能与人进行无缝、恰当的对话,经常扮演聊天伙伴和推荐者的角色。

邀请嘉宾: Michel Galley是微软研究人工智能的高级研究员。他的研究兴趣在自然语言处理和机器学习领域,特别关注会话人工智能、神经生成、统计机器翻译和总结。他获得了哥伦比亚大学的硕士和博士学位,并获得了电子计算机科学学士学位。在加入微软研究之前,他是斯坦福大学计算机系的研究助理。他还是南加州大学/国际科学院NLP小组和贝尔实验室口语对话系统小组的定期访问研究员。他与人合著了50多篇科学论文,其中许多出现在顶级的NLP、AI和ML会议上。其中两份出版物是最佳论文决赛(NAACL 2010,EMNLP 2013)。他还担任全国人民解放大会(ACL、NAACL、EMNLP)的地区主席,并在SIGIR和IJCAI担任高级PC成员。

高剑锋是微软人工智能研究院的合作伙伴研究经理。他领导了人工智能系统的开发,用于机器阅读理解(MRC)、问答(QA)、社交机器人、目标导向对话和商业应用。2014年至2017年,他担任微软研究院(Microsoft Research)深度学习技术中心(Deep Learning Technology Center)的合作研究经理,领导文本和图像处理深度学习研究。从2006年到2014年,他是微软研究中心(Microsoft Research)自然语言处理组的首席研究员,主要从事网络搜索、查询理解和重组、广告预测和统计机器翻译。从2005年到2006年,他是微软自然交互服务部门的一名研究负责人,在那里他参与了ProjectX,这是一项为Windows开发自然用户界面的工作。2000年至2005年,他在微软亚洲研究院自然语言计算组担任研究负责人,与同事们共同开发了微软Office发布的首个中文语音识别系统,即市场上领先的中文/日文输入法编辑器(IME),以及微软Windows的自然语言平台。

成为VIP会员查看完整内容
4+
0+
Top