元学习究竟是什么？这《基于梯度的元学习》199页伯克利博士论文带你回顾元学习最新发展脉络

2018 年 12 月 27 日 专知

【导读】作者Chelsea Finn，现任Google Brain研究科学家，同时也是伯克利人工智能研究实验室(BAIR)的博士后。其博士毕业于伯克利计算机系，拥有强大的学术背景，可以算是AI圈最牛逼的博士之一了。她的博士论文——基于梯度的元学习（Learning to Learn with Gradients）很值得一读，该论文系统性地阐述了Meta Learning以及她提出的MAML的方法和相关改进。作者从Meta Learning问题出发，然后提出了MAML理论，再进行一系列基于该理论的应用尝试。感兴趣的同学可以仔细品味这一系统性的博士论文和其代表性工作。

作者简介

Chelsea Finn

个人主页：

http://people.eecs.berkeley.edu/~cbfinn/

Chelsea Finn感兴趣的是学习算法如何使机器能够获得通用的智能概念，使他们能够在现实环境中自主学习各种复杂的运动技能。这包括从原始感官输入中学习表示复杂技能的深层表示，使机器能够在没有人工监督的情况下自行学习，并允许系统在之前所学的基础上，通过少量的经验获得新的能力。

目前是Google Brain的研究科学家，也是伯克利人工智能研究实验室（BAIR）的博士后。将从2019年秋季开始加入斯坦福大学计算机科学系。

最近在加州大学伯克利分校(UC Berkeley)完成了计算机科学博士学位，研究机器学习及其与机器人感知和控制的交叉。是伯克利人工智能研究实验室(BAIR)的一员，由Pieter Abbeel和Sergey Levine担任顾问。在进入研究生院之前，其在麻省理工学院获得了EECS的学士学位，在那里参与了几个研究项目，包括Seth Teller的CSAIL辅助技术项目和Sai Ravela的动物生物识别项目。还在Counsyl，Google和Sandia National Labs工作过。

博士论文介绍

人类有一种非凡的能力，能从少数例子中学习新概念，并能迅速适应不可预知的环境。为了做到这一点，他们以先前的经验为基础，并为适应能力做好准备，允许将先前观察与少量新证据结合起来进行快速学习。然而，在大多数机器学习系统中，有不同的训练和测试阶段:训练包括使用数据更新模型，在测试时，模型被部署为一个刚性决策引擎。在本文中，我们讨论了基于梯度的learning to learn算法，或元学习（meta-learning），其目的是赋予机器类似于人类的灵活性。这些元学习技术不是部署固定的，不可适应的系统，而是明确地训练快速适应的能力，以便在测试时能够在面对新场景时快速学习。

为了研究learning to learn的问题，我们首先对元学习问题、元学习的术语和元学习算法的理想特性给出了一个清晰而形式化的定义。在此基础上，我们提出了一种基于梯度优化的元学习方法。与以往learning to learn的方法不同，这类方法侧重于获得一个可转移的表示，而不是一个好的学习规则。因此，这些方法通过使用固定的优化作为学习规则继承了许多理想的属性，同时仍然保持完整的表达性，因为所学习的表示可以控制更新规则。

我们展示了如何将元学习的元素与基于深度模型的强化学习、模仿学习和反向强化学习技术结合起来，将这些方法推广到运动控制领域。通过这样做，我们构建了能够适应动态环境的模拟agent，让真实的机器人通过观看一个人的视频来学习操纵新对象，并且让人类用少量的图像向机器人传达目标。最后，我们通过讨论元学习中的开放问题和未来方向来进行总结，旨在找出我们现有方法的关键缺陷和局限性。

请关注专知公众号（扫一扫最下面专知二维码，或者点击上方蓝色专知）

后台回复“MAML” 就可以获取本文的下载链接~

元学习简介

Meta Learning（元学习）或者叫做 Learning to Learn（学会学习）已经成为继 Reinforcement Learning（增强学习）之后又一个重要的研究分支（以后仅称为 Meta Learning）。对于人工智能的理论研究，呈现出了Artificial Intelligence --> Machine Learning --> Deep Learning --> Deep Reinforcement Learning --> Deep Meta Learning这样的趋势。

而人类之所以能够快速学习的关键是人类具备学会学习的能力，能够充分的利用以往的知识经验来指导新任务的学习，因此 Meta Learning 成为新的攻克的方向。

良好的机器学习模型通常需要使用大量样本进行训练。相比之下，人类能够更快，更有效地学习新的概念和技能。只看过几次猫和鸟的孩子可以很快分辨它们；会骑自行车的人很快就能上手摩托车。是否有可能通过一些训练少量样本快速设计出具有类似属性的机器学习模型？这就是元学习旨在解决的问题。

元学习，也称为“学会学习”，旨在通过一些训练少量样本可以学习新技能或快速适应新环境的模型。有三种常见的方法：1）学习有效的距离度量（基于度量）; 2）使用（循环）网络与外部或内部存储器（基于模型）; 3）明确优化模型参数以进行快速学习（基于优化）。

参考链接：

https://zhuanlan.zhihu.com/p/28639662

本文大纲