编写机器人程序仍然是出了名的困难。让机器人具备学习的能力,就可以绕过那些通常需要耗费大量时间来完成特定任务的编程工作。这个演讲将描述最近在深度强化学习(机器人通过自己的尝试和错误学习)、学徒学习(机器人通过观察人学习)和元学习(机器人学习学习)方面的进展。这项工作使机器人在操作、移动和飞行方面有了新的能力,这些领域的进步都是基于相同的方法。

https://www.youtube.com/watch?v=WGza-jN4CZs

成为VIP会员查看完整内容
0
21

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【导读】元学习旨在学会学习,是当下研究热点之一。最近来自爱丁堡大学的学者发布了关于元学习最新综述论文《Meta-Learning in Neural Networks: A Survey》,值得关注,详述了元学习体系,包括定义、方法、应用、挑战,成为不可缺少的文献。

近年来,元学习领域,或者说“学会学习的学习”,引起了人们极大的兴趣。与传统的人工智能方法(使用固定的学习算法从头开始解决给定的任务)不同,元学习的目的是改进学习算法本身,考虑到多次学习的经验。这个范例提供了一个机会来解决深度学习的许多传统挑战,包括数据和计算瓶颈,以及泛化的基本问题。在这项综述中,我们描述了当代元学习的景观。我们首先讨论元学习的定义,并将其定位于相关领域,如迁移学习、多任务学习和超参数优化。然后,我们提出了一个新的分类法,对元学习方法的空间进行了更全面的细分。我们综述了元学习的一些有前途的应用和成功案例,包括小样本学习、强化学习和体系架构搜索。最后,我们讨论了突出的挑战和未来研究的有希望的领域。

https://arxiv.org/abs/2004.05439

概述

现代机器学习模型通常是使用手工设计的固定学习算法,针对特定任务从零开始进行训练。基于深度学习的方法在许多领域都取得了巨大的成功[1,2,3]。但是有明显的局限性[4]。例如,成功主要是在可以收集或模拟大量数据的领域,以及在可以使用大量计算资源的领域。这排除了许多数据本质上是稀有或昂贵的[5],或者计算资源不可用的应用程序[6,7]。

元学习提供了另一种范式,机器学习模型可以在多个学习阶段获得经验——通常覆盖相关任务的分布——并使用这些经验来改进未来的学习性能。这种“学会学习”[8]可以带来各种好处,如数据和计算效率,它更适合人类和动物的学习[9],其中学习策略在一生和进化时间尺度上都得到改善[10,9,11]。机器学习在历史上是建立在手工设计的特征上的模型,而特征的选择往往是最终模型性能的决定因素[12,13,14]。深度学习实现了联合特征和模型学习的承诺[15,16],为许多任务提供了巨大的性能改进[1,3]。神经网络中的元学习可以看作是集成联合特征、模型和算法学习的下一步。神经网络元学习有着悠久的历史[17,18,8]。然而,它作为推动当代深度学习行业前沿的潜力,导致了最近研究的爆炸性增长。特别是,元学习有可能缓解当代深度学习[4]的许多主要批评,例如,通过提供更好的数据效率,利用先验知识转移,以及支持无监督和自主学习。成功的应用领域包括:小样本图像识别[19,20]、无监督学习[21]、数据高效[22,23]、自导向[24]强化学习(RL)、超参数优化[25]和神经结构搜索(NAS)[26, 27, 28]。

在文献中可以找到许多关于元学习的不同观点。特别是由于不同的社区对这个术语的使用略有不同,所以很难定义它。与我们[29]相关的观点认为,元学习是管理“没有免费午餐”定理[30]的工具,并通过搜索最适合给定问题或问题族的算法(归纳偏差)来改进泛化。然而,从广义上来说,这个定义可以包括迁移、多任务、特征选择和模型集成学习,这些在今天通常不被认为是元学习。另一个关于元学习[31]的观点广泛地涵盖了基于数据集特性的算法选择和配置技术,并且很难与自动机器学习(AutoML)[32]区分开来。在这篇论文中,我们关注当代的神经网络元学习。我们将其理解为算法或归纳偏差搜索,但重点是通过端到端学习明确定义的目标函数(如交叉熵损失、准确性或速度)来实现的。

因此,本文提供了一个独特的,及时的,最新的调查神经网络元学习领域的快速增长。相比之下,在这个快速发展的领域,以往的研究已经相当过时,或者关注于数据挖掘[29、33、34、35、36、37、31]、自动[32]的算法选择,或者元学习的特定应用,如小样本学习[38]或神经架构搜索[39]。

我们讨论元学习方法和应用。特别是,我们首先提供了一个高层次的问题形式化,它可以用来理解和定位最近的工作。然后,我们在元表示、元目标和元优化器方面提供了一种新的方法分类。我们调查了几个流行和新兴的应用领域,包括少镜头、强化学习和架构搜索;并对相关的话题如迁移学习、多任务学习和自动学习进行元学习定位。最后,我们讨论了尚未解决的挑战和未来研究的领域。

未来挑战:

-元泛化 元学习在不同任务之间面临着泛化的挑战,这与传统机器学习中在不同实例之间进行泛化的挑战类似。

  • 任务分布的多模态特性
  • 任务族
  • 计算代价
  • 跨模态迁移和异构任务

总结

元学习领域最近出现了快速增长的兴趣。这带来了一定程度的混乱,比如它如何与邻近的字段相关联,它可以应用到什么地方,以及如何对它进行基准测试。在这次综述中,我们试图通过从方法学的角度对这一领域进行彻底的调查来澄清这些问题——我们将其分为元表示、元优化器和元目标的分类;从应用的角度来看。我们希望这项调查将有助于新人和实践者在这个不断增长的领域中定位自己,并强调未来研究的机会。

成为VIP会员查看完整内容
0
79

报告主题: Better Model-based RL through Meta RL

报告简介: Meta RL(Meta Reinforcement Learning)是Meta Learning应用到Reinforcement Learning的一个研究方向,核心的想法就是希望AI在学习大量的RL任务中获取足够的先验知识Prior Knowledge然后在面对新的RL任务时能够 学的更快,学的更好,能够自适应新环境,本教程主要从强化学习的基础,基于模型的元强化学习,以及如何加快元强化学习训练速度三方面展开。

嘉宾介绍: Pieter Abbeel是加州大学伯克利分校电子工程和计算机科学教授,伯克利机器人学习实验室主任和伯克利AI研究实验室联合主任。

成为VIP会员查看完整内容
0
13

报告主题: From System 1 Deep Learning to System 2 Deep Learning

报告简介: 早期,深度学习的进展主要集中在对静态数据集的学习上,主要用于各类感知任务,这些任务大都依靠人类的直觉,可以在无意识的情况下完成,可称为第一代系统需求。然而,最近几年,随着研究方向的转变和一些新工具的出现诸如soft-attention和深度强化学习领域的进展,它们为深度学习架构和训练框架的进一步发展,开启了新的大门,这种深度架构和训练框架有助于解决第二代系统需求(这种系统任务需要人类有意识的去完成),如在自然语言处理和其他应用当中的推理、规划、因果关系捕获和系统归纳等。从第一代系统的深度学习,扩展到第二代系统的任务之中,对于完成之前挖掘高层次抽象特征的目标是非常重要的,因为我们认为第二代系统需求,将会对表征学习提出更高的要求,以发掘出某种人类可以用语言进行巧妙处理的高级内容。我们认为,为了达到这个目标,soft-attention机制是关键因素,它每次都关注其中某几个概念并进行计算,因为意识先验及其相关的假设中,许多高层次的依赖关系可以被一个稀疏因子图近似地捕捉到。最后,报告介绍了元学习,这种先验意识和代理视角下的表征学习,会更加有助于以新颖的方式,支持强大的合成泛化形式。

嘉宾介绍: Yoshua Bengio是蒙特利尔大学计算机科学与运筹学系的教授,Mila和IVADO的科学总监和创始人,2018年图灵奖获得者,加拿大统计学习算法研究主席以及加拿大AI CIFAR主席。 他开创了深度学习的先河,并在2018年每天获得全球所有计算机科学家中最多的引用。 他是加拿大勋章的官员,加拿大皇家学会的成员,并于2017年被授予基拉姆奖,玛丽·维克多奖和年度无线电加拿大科学家,并且是NeurIPS顾问的成员, ICLR会议的董事会和联合创始人,以及CIFAR“机器和大脑学习”计划的程序总监。 他的目标是帮助发现通过学习产生智力的原理,并促进AI的发展以造福所有人。

成为VIP会员查看完整内容
0
78

报告主题: 模仿学习前沿进展

报告摘要: 时空跟踪和传感数据的不断发展,现在使得在广泛的领域中对细粒度的行为进行分析和建模成为可能。例如,现在正在收集每场NBA篮球比赛的跟踪数据,其中包括球员,裁判和以25 Hz跟踪的球,以及带有注释的比赛事件,如传球,射门和犯规。其他设置包括实验动物,公共场所的人员,设置诸如手术室,演员讲话和表演的演员,虚拟环境中的数字化身,自然现象(如空气动力学)以及其他计算系统的行为等专业人员。 在本演讲中,我将描述正在进行的研究,这些研究正在开发结构化模仿学习方法,以开发细粒度行为的预测模型。模仿学习是机器学习的一个分支,它处理模仿模仿的动态行为的学习。结构化模仿学习涉及施加严格的数学领域知识,这些知识可以(有时被证明)可以加速学习,并且还可以带来附带利益(例如Lyapunov稳定性或政策行为的可解释性)。我将提供基本问题设置的高级概述,以及对实验动物,专业运动,语音动画和昂贵的计算神谕进行建模的特定项目。

嘉宾介绍: Yisong Yue,博士,是加州理工学院计算与数学科学系的助理教授。他以前是迪斯尼研究院的研究科学家。在此之前,他是卡耐基梅隆大学机器学习系和iLab的博士后研究员。 Yisong的研究兴趣主要在于统计机器学习的理论和应用。他对开发用于交互式机器学习和结构化机器学习的新颖方法特别感兴趣。过去,他的研究已应用于信息检索,推荐系统,文本分类,从丰富的用户界面中学习,分析隐式人类反馈,临床治疗,辅导系统,数据驱动的动画,行为分析,运动分析,实验设计科学,优化学习,机器人技术政策学习以及自适应计划和分配问题。

成为VIP会员查看完整内容
0
18

简介: 强大的机器学习技术在数据丰富的领域成为可能。然而,数据稀缺的领域对这类方法具有挑战性,因为高容量函数逼近器非常依赖大型数据集进行泛化。这可能对从监督医学图像处理到增强学习等领域构成重大挑战,在这些领域中,真实世界的数据收集(例如机器人)构成了重大的后勤挑战。元学习或小样本学习为这一问题提供了一个潜在的解决方案:通过学习跨许多以前任务的数据学习,小样本元学习算法可以发现任务之间的结构,从而使新任务的快速学习成为可能。

本教程的目的是提供一个统一的元学习视角:向读者讲授现代方法,描述围绕这些技术的概念和理论原则,介绍这些方法以前在哪里被应用,并讨论该领域内的基本开放问题和挑战。我们希望本教程对其他领域的机器学习研究人员有用,同时也为元学习研究人员提供了一个新的视角。总而言之,我们的目标是让观众能够将元学习应用到他们自己的应用中,并开发新的元学习算法和理论分析,以应对当前的挑战和现有工作的局限性。

视频地址:

Part1 https://www.facebook.com/icml.imls/videos/400619163874853/

Part2 https://www.facebook.com/icml.imls/videos/2970931166257998/

主讲人介绍:

Chelsea Finn是Google Brain的研究科学家,也是加州大学伯克利分校的博士后。在2019年9月,她将加入斯坦福大学的计算机科学系担任助理教授。 Finn的研究兴趣在于使机器人和其他代理能够通过学习和交互来发展广泛的智能行为的能力。为此,芬恩开发了深度学习算法,用于同时学习机器人操纵技能中的视觉感知和控制,用于非线性奖励函数的可伸缩获取的逆强化方法以及可以在两个视觉系统中实现快速,少拍适应的元学习算法感知和深度强化学习。 Finn在麻省理工学院获得EECS的学士学位,并在加州大学伯克利分校获得CS的博士学位。她的研究得到了NSF研究生奖学金,Facebook奖学金C.V.的认可。她获得了Ramamoorthy杰出研究奖和《麻省理工学院技术评论35分35奖》,她的工作已被《纽约时报》,《连线》和彭博社等多家媒体报道。

Sergey Levine于2009年获得斯坦福大学计算机科学学士学位和硕士学位,并获得博士学位。 2014年获得斯坦福大学计算机科学博士学位。他于2016年秋天加入加州大学伯克利分校电气工程与计算机科学系。他的工作重点是决策和控制的机器学习,重点是深度学习和强化学习。他的工作应用包括自动驾驶机器人和车辆,以及计算机视觉和图形。 他的研究包括开发将感知和控制相结合的深度神经网络策略的端到端训练算法,用于逆向强化学习的可扩展算法,深度强化学习算法等。 在许多受欢迎的媒体中,包括纽约时报,BBC,麻省理工学院技术评论和彭博社,他的作品都得到了报道。

成为VIP会员查看完整内容
0
27

主题: Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning

摘要: 近年来,在数据丰富的领域,诸如深度神经网络等高容量模型已经使机器学习技术变得非常强大。然而,数据稀缺的领域已被证明具有挑战性的这种方法,因为高容量函数逼近严重依赖于大数据集的泛化。这可能对从有监督的医学图像处理到强化学习等领域构成重大挑战,在这些领域,真实世界的数据收集(如机器人)构成重大的后勤挑战。元学习或少镜头学习为这个问题提供了一个潜在的解决方案:通过学习从许多以前的任务中跨数据学习,很少镜头元学习算法能够发现任务之间的结构,从而实现新任务的快速学习。本教程的目的是为元学习提供一个统一的视角:向观众讲授现代方法,描述围绕这些技术的概念和理论原则,介绍这些方法以前的应用领域,并讨论了该地区存在的基本问题和挑战。我们希望本教程对那些在其他领域有专长的机器学习研究人员都有用,同时也为元学习研究人员提供了一个新的视角。总而言之,我们的目标是为受众成员提供将元学习应用到他们自己的应用中的能力,并开发新的元学习算法和理论分析,这些驱动是由现有工作的挑战和局限所驱动的。我们将提供一个统一的视角,说明各种元学习算法如何能够从小数据集中学习,概述元学习能够而且不容易应用的应用,并讨论这一子领域的突出挑战和前沿。

邀请嘉宾: Chelsea Finn是Google Brain的研究科学家,也是加州大学伯克利分校的博士后学者。2019年9月,她将以助理教授的身份加入斯坦福大学计算机科学系。芬恩的研究兴趣在于通过学习和互动,使机器人和其他智能体发展出广泛的智能行为。为此,芬恩开发了深度学习算法,用于同时学习机器人操作技能中的视觉感知和控制,用于可伸缩获取非线性回报函数的逆强化方法,以及能够快速实现的元学习算法,在视觉感知和深度强化学习中,很少有镜头适应。芬恩在麻省理工学院获得了EECS学士学位,在加州大学伯克利分校获得了CS博士学位。她的研究成果已通过NSF研究生奖学金、Facebook奖学金、C.V.Ramamoorthy杰出研究奖和麻省理工35岁以下技术评论奖获得认可,她的研究成果已被包括《纽约时报》、《连线》和彭博社在内的多家媒体报道。

Sergey Levine 2009年获得斯坦福大学计算机科学学士和硕士学位,2014年获得斯坦福大学计算机科学博士学位。他于2016年秋季加入加州大学伯克利分校电气工程与计算机科学系。他的工作重点是决策和控制的机器学习,重点是深度学习和强化学习算法。他的工作包括自主机器人和车辆,以及计算机视觉和图形。他的研究工作包括开发将感知和控制相结合的深度神经网络策略的端到端训练算法、反向强化学习的可扩展算法、深度强化学习算法等。

成为VIP会员查看完整内容
0
21
小贴士
相关VIP内容
专知会员服务
66+阅读 · 5月8日
专知会员服务
26+阅读 · 2月1日
【CMU】机器学习导论课程(Introduction to Machine Learning)
专知会员服务
20+阅读 · 2019年8月26日
相关论文
Wenwu Zhu,Xin Wang,Peng Cui
14+阅读 · 1月2日
Zhenzhong Lan,Mingda Chen,Sebastian Goodman,Kevin Gimpel,Piyush Sharma,Radu Soricut
3+阅读 · 2019年9月26日
A Survey of the Usages of Deep Learning in Natural Language Processing
Daniel W. Otter,Julian R. Medina,Jugal K. Kalita
36+阅读 · 2019年9月11日
Deep Reinforcement Learning: An Overview
Yuxi Li
8+阅读 · 2018年11月26日
Joaquin Vanschoren
85+阅读 · 2018年10月8日
Jingkang Wang,Yang Liu,Bo Li
3+阅读 · 2018年10月5日
Hierarchical Deep Multiagent Reinforcement Learning
Hongyao Tang,Jianye Hao,Tangjie Lv,Yingfeng Chen,Zongzhang Zhang,Hangtian Jia,Chunxu Ren,Yan Zheng,Changjie Fan,Li Wang
4+阅读 · 2018年9月25日
Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning
Tom Zahavy,Matan Haroush,Nadav Merlis,Daniel J. Mankowitz,Shie Mannor
4+阅读 · 2018年9月6日
The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach
Iulian Vlad Serban,Chinnadhurai Sankar,Michael Pieper,Joelle Pineau,Yoshua Bengio
9+阅读 · 2018年7月12日
Top