学界 | 伯克利AI研究所:新型元学习法 MAML 的前世今生

2017 年 7 月 21 日 人工智能学家



作者:思颖

来源:AI科技评论

概要:智能的一个关键层面是多才多艺——即拥有做许多不同事情的能力。目前的人工智能系统擅长掌握单一技能,如精通围棋的Go、深度回答能力超强的Watson,甚至还有自动控制直升机系统。


AI科技评论按:伯克利AI研究所带来了他们的最新研究——未知模型元学习法(MAML)。它不会对模型的形式做任何假设,也没有为元学习引入额外的参数,极易应用于许多领域,包括分类、回归和强化学习。这种方法非常简单,并且优于已知的很多方法。


AI科技评论将其编译如下:

智能的一个关键层面是多才多艺——即拥有做许多不同事情的能力。目前的人工智能系统擅长掌握单一技能,如精通围棋的Go、深度回答能力超强的Watson,甚至还有自动控制直升机系统。但是,当你让人工智能系统去做不同种类看似简单的问题时,它就会举步维艰。在《Jeopardy》中的智力问答冠军Watson不能交谈,一个能熟练操控直升机飞行的系统不能应用于其他新的、简单的情形,比如为了扑灭火灾,进行定位、飞行和悬停操作。相比之下,人类可以做很多事,智能地适应各种新的、未曾看过的情形。怎样才能使人工智能变得像人一样多才多艺呢?

已经有了几种技术来解决上述问题,在这篇文章中,伯克利AI研究所评价了这些技术,同时讨论了他们针对上述问题的最新技术——未知模型元学习法(论文以及代码地址见文末)。

当前的AI系统能从零开始学习,花费大量的时间和经验掌握一项复杂的技能。但是,如果希望系统能够掌握许多技能并适应多种状况,从零开始逐个技能逐步训练的代价太大了。现在需要系统重用以前的经验,更快地学习新任务,而不是从头学习。这种方法叫学会学习或元学习,是通往全能型系统的关键踏脚石,这种通用系统在生命期内能从大量任务中持续不断地学习。


什么是学会学习,它现在都有哪些应用?

最早的元学习方法可以追溯到上世纪80年代末和90年代初,Jürgen Schmidhuber的论文、Yoshua和Samy Bengio的工作中都有提到。近年来,元学习成为热门话题,关于它的论文席卷而来。它最常用在这些地方:超参数和神经网络优化,发掘好的网络架构,小样本图像识别和快速的强化学习。

上图是几种常见的元学习方法


小样本学习

2015年,Brendan Lake等人发表了一篇论文,挑战了现代机器学习方法。他们指出机器可以通过一个概念中的单个或几个例子学会新的概念。例如,Lake认为人类可以只看到一张图片(如下图所示)就学会识别“新型双轮车”,而在这之前的机器则不能像人一样泛化概念。(对于从未见过的字母表中的字符,人类也可以在见过一个示例之后将它画出来)。

和论文一起,Lake还公布了Omniglot数据集,这个数据集是MNIST的“转置”,共计1623类字符,每类包含20个样本。很快,紧随2016年ICML的论文,出现了两种深度学习模型,它们使用的是记忆增强神经网络和顺序生成模型,这表明,深度模型通过少量例子学会学习是可能的,虽然还没有达到人类的水平。


目前元学习方法的工作原理

先是让系统接触大量的任务进行训练,然后再测试这个系统学习新任务的能力。比如会有这样的任务:要识别一张新图像是五个分类中的哪一个,每个分类只有一张示例图像;或学会在一次遍历之后高效的走出迷宫。这与许多标准的机器学习技术不同,它们的方法是在单个任务上进行训练,在任务中单独留出的样例中进行测试。

元学习过程中,在元训练集中训练模型学习任务。有两种优化在起作用——一种是学习器,它负责学习新任务;另一种是元学习器,它负责训练学习器。元学习的方法通常分为三类:循环模型、度量学习和学习优化器法。


循环模型

有一些做法可以训练出一个循环模型,例如LSTM网络,先是连续地接收数据集,然后处理来自目标任务的输入。对于图像识别来说,可能需要持续把数据集中成对的图像—标签对传递给网络,然后再传递要识别的新样例。

元学习器使用梯度下降法,而学习器只是简单地在循环网络中执行。这是最常见的方法之一,已经被用于小样本识别和回归、元强化学习。由于其灵活性,这种方法比其他方法(从元的角度)更低效,因为学习器网络需要从零开始找到学习策略。


度量学习

这种方法需要学习一个度量空间,在这个空间里学习特别高效。该方法主要用于小样本识别。直观地说,如果目标是从少量的样本图像中学习,那么有一种简单的方法是用已有的样本图像与试图识别的图像作比较。

但是,正如你可能想象的那样,在像素空间中比较图像不会起到很好的效果。你可以在一个训练好的度量空间里训练孪生网络或执行比较。与以前的方法一样,元学习使用梯度下降法(或你偏好的神经网络优化器),鉴于学习器扮演的角色是元训练度量空间中的对比体系,例如近邻算法。这些方法可以很好地用于小样本识别,即使在回归或强化学习等其他元学习领域尚未证实有同样的效果。


学习优化器法

最后一个方法是学习优化器法。在这种方法中,一个网络(元学习器)学习更新另一个网络(学习器),以便学习器高效地学习任务。为了更好地优化神经网络,人们对这种方法进行了广泛的研究。元学习器通常是循环网络,以便记住之前是如何校正学习器模型的。元学习器可以用强化学习或监督学习的方式来训练。Ravi和Larochelle最近演示了这种方法用于小样本图像识别的优点,提出了这样的观点:学习器模型也是一种需要学习的优化过程。


像元学习一样学会初始化

可以证明,目前为止,迁移学习最大的成果是用ImageNet预训练来初始化视觉网络权重。特别是,当处理新的视觉任务时,众所周知的范式是首先为任务收集带标签的数据集,得到预训练过的ImageNet分类器,然后利用梯度下降法,基于采集到的数据来微调网络。使用这种方法,神经网络可以更有效地从更少的数据集中学习新的基于图像的任务。

然而,预训练的效果也就这样。因为网络的最底层仍然需要高度适应新的任务,像小样本学习那样太小的数据集仍会造成严重的过拟合。此外,遗憾的是现在在语音、语言和控制等非视觉领域没有类似的预训练体系。从微调的方法既然取得了这么好得效果,有什么可以借鉴的吗?


未知模型元学习法(Model-Agnostic Meta-Learning ,MAML)

需要找到能够根据少量样本高效地进行微调的表征,那么有没有可能直接对初始表征做优化呢?这是伯克利AI研究所最近提出的未知模型元学习法(MAML)背后的想法。和其他元学习法一样,MAML能在大量不同的任务上训练,通过少量的梯度步骤,能快速得到适应新任务的表征。

元学习器试图找到一个初始值,不仅可以适应各种问题,而且可以快速(只需少量步骤)高效(只使用几个例子)地适应。下面是一个可视化图–假设我们正试图寻找一组具有高度适应性的参数θ,在元学习过程中(粗线),MAML优化一组参数,以便当执行关于某个任务i(灰线)的梯度步骤时,参数接近i任务的最优参数θi*。

 

这种方法非常简单,并且有许多优点。它不会对模型的形式做任何假设。它相当有效——没有为元学习引入额外的参数,并且使用已知的优化过程(梯度下降法),而不是必须从零开始想出策略。最后,它极易应用于许多领域,包括分类、回归和强化学习。

尽管这种方法很简单,令人惊讶的是,它在流行的小样本图像识别基准、Omniglot和MiniImageNet2上优于现在的许多方法,包括更复杂的或适用于特定领域的方法。

除了识别之外,他们还试图学习如何让模拟机器人的行为适应不同的目标,这类似于文章最开始提到多才多艺性。为此,他们将MAML与强化学习中的策略梯度方法结合。通过MAML可以学到一种策略,它可以让模拟机器人在单一的梯度更新中适应移动方向和速度。请看如下动图: 

MAML 用于学习“半只猎豹”的模型

MAML 用于学习“蚂蚁”的模型

该方法的泛化性——它可以与任何足够平滑的模型结合,这样就可以用基于梯度的方法进行优化了——这使得MAML不只适用于本文中探讨的案例,还适用于广泛的领域和学习目标。

MAML方法能够有效教会系统适应不同场景,他们也希望这能有助于更快地开发出能够在现实世界中学到多种技能的多功能人工智能。

论文地址:https://arxiv.org/abs/1703.03400

代码地址:https://github.com/cbfinn/maml


作者:思颖

来源:AI科技评论


欢迎加入未来科技学院企业家群,共同提升企业科技竞争力

一日千里的科技进展,层出不穷的新概念,使企业家,投资人和社会大众面临巨大的科技发展压力,前沿科技现状和未来发展方向是什么?现代企业家如何应对新科学技术带来的产业升级挑战?


欢迎加入未来科技学院企业家群,未来科技学院将通过举办企业家与科技专家研讨会,未来科技学习班,企业家与科技专家、投资人的聚会交流,企业科技问题专题研究会等多种形式,帮助现代企业通过前沿科技解决产业升级问题、开展新业务拓展,提高科技竞争力。


未来科技学院由人工智能学家在中国科学院虚拟经济与数据科学研究中心的支持下建立,成立以来,已经邀请国际和国内著名科学家、科技企业家300多人参与学院建设,并建立覆盖2万余人的专业社群;与近60家投资机构合作,建立了近200名投资人的投资社群。开展前沿科技讲座和研讨会20多期。  欢迎行业、产业和科技领域的企业家加入未来科技学院


报名加入请扫描下列二维码,点击本文左下角“阅读原文”报名




登录查看更多
1

相关内容

Meta Learning,元学习,也叫 Learning to Learn(学会学习)。是继Reinforcement Learning(增强学习)之后又一个重要的研究分支。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
85+阅读 · 2020年1月20日
【斯坦福大学Chelsea Finn-NeurIPS 2019】贝叶斯元学习
专知会员服务
37+阅读 · 2019年12月17日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
学习如何学习的算法:简述元学习研究方向现状
深度学习世界
6+阅读 · 2018年4月9日
已删除
将门创投
8+阅读 · 2017年7月21日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Arxiv
26+阅读 · 2019年3月5日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
7+阅读 · 2018年12月5日
Arxiv
135+阅读 · 2018年10月8日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Arxiv
7+阅读 · 2018年6月8日
VIP会员
相关论文
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Arxiv
26+阅读 · 2019年3月5日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
7+阅读 · 2018年12月5日
Arxiv
135+阅读 · 2018年10月8日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Arxiv
7+阅读 · 2018年6月8日
Top
微信扫码咨询专知VIP会员