所有著名的机器学习算法包括监督学习和半监督学习,只有在一个共同的假设下才能很好地有效: 训练和测试数据遵循相同的分布。当分布发生变化时,大多数统计模型必须从新收集的数据中重新构建,对于某些应用程序,这些数据可能是昂贵的或不可能获得的。因此,有必要开发一种方法,通过利用相关领域的可用数据并在类似领域进一步使用它来减少获取新标记样本的需要和工作量。这催生了一种新的机器学习框架,称为“迁移学习”(transfer learning):这是一种学习环境,其灵感来自于人类在不同任务间推断知识以提高学习效率的能力。尽管有大量不同的迁移学习场景,本综述的主要目的是提供一个特定的、可以说是最流行的迁移学习子领域——领域自适应——最新理论结果的概述。在这个子领域中,假设在训练和测试数据之间的数据分布是变化的,而学习任务是不变的。我们提供了一个关于领域适应问题的现有结果的最新描述,它涵盖了基于不同统计学习框架的学习范围。

概述

迁移学习背后的思想是由人类的学习能力所激发的,这种学习能力是在很少或没有监督的情况下根据先前获得的知识进行的。毫不奇怪,这个概念并没有在机器学习领域中被发明出来,因为“学习的转移”这个概念在第一台计算机出现之前就已经被使用了,并且在20世纪早期的心理学领域的论文中也有出现。从统计的角度来看,这种学习场景不同于监督学习,因为前者不假设训练和测试数据必须来自相同的概率分布。有人认为,这种假设在实践中往往过于严格,因为在许多现实世界的应用中,假设是在不同的环境中学习和部署的,并显示出一个重要的转变。在迁移移学习中经常使用的一个典型例子是考虑一个垃圾邮件过滤任务,其中垃圾邮件过滤器是使用给定用户的公司邮箱的任意分类算法来学习的。在这种情况下,由算法分析的绝大多数电子邮件很可能是专业性质的,其中很少涉及被考虑的人的私人生活。再进一步设想这样一种情况:同一用户在个人计算机上安装了邮箱软件,并导入其公司邮箱的设置,希望它也能在其上正常工作。然而,这是不可能的,因为许多个人电子邮件可能看起来像垃圾邮件的算法学习纯粹的专业通信,由于他们的内容和附件文件的差异,以及电子邮件地址的不一致性。另一个说明性的例子是海洋学研究中的物种分类,在这种分类中,人们依靠对某一海域的视频覆盖来识别海洋栖息地的物种。例如,在地中海和印度洋,可以在录像中找到的鱼类很可能属于同一科,尽管由于不同的气候和进化背景,它们的实际外观可能非常不同。在这种情况下,如果没有专家的专门调整,在地中海视频覆盖上训练的学习算法很可能无法提供印度洋物种的正确分类。

在这种应用中,我们可能希望找到一种学习范式,这种学习范式能够保持对不断变化的环境的鲁棒性,并通过类比和利用最初学习领域的知识来适应手边的新问题。为了解决这个问题,对新的算法的探索,能够在一个训练样本上学习,然后在一个测试样本上有一个良好的表现,来自一个不同但相关的概率分布,从而产生了一个新的学习范式,称为迁移学习。

表1: 本综述中关于领域适应的学习范围的贡献总结。(任务)是指所考虑的学习问题;(框架)指定分析中使用的统计学习框架;(散度)是用来比较源分布和目标分布的度量;(Link)表示源误差与散度项之间的依赖关系;(Non-estim)表示在界限中存在一个不可估计的项。

在本篇综述中,我们对领域自适应问题的现有理论进行了概述,这种学习设置扩展了传统的学习范式,使模型可以在来自不同但相关的概率分布的样本上学习和部署。所引用的理论结果通常采取一种学习边界的形式,其目标是将一个模型在训练(也称为源)域上的错误与测试(也称为目标)域上的错误联系起来。为此,我们注意到所提供的结果是非常直观的,因为它们明确地引入了上述两个错误之间的关系与它们的数据生成概率分布和相应的标记函数的相似性的依赖关系。因此,这种源域和目标域之间的双向关联,通过比较两个域的边缘分布和样本的可能标记来描述这两个域的无监督邻近性,通过寻找一个相对于它们具有低误差的良好模型。在这一主题的大多数已发表的结果中,以这样或那样的方式保留了这种普遍的权衡,因此可以被视为现代领域适应理论的基石。

成为VIP会员查看完整内容
207

相关内容

迁移学习(Transfer Learning)是一种机器学习方法,是把一个领域(即源领域)的知识,迁移到另外一个领域(即目标领域),使得目标领域能够取得更好的学习效果。迁移学习(TL)是机器学习(ML)中的一个研究问题,着重于存储在解决一个问题时获得的知识并将其应用于另一个但相关的问题。例如,在学习识别汽车时获得的知识可以在尝试识别卡车时应用。尽管这两个领域之间的正式联系是有限的,但这一领域的研究与心理学文献关于学习转移的悠久历史有关。从实践的角度来看,为学习新任务而重用或转移先前学习的任务中的信息可能会显着提高强化学习代理的样本效率。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《生成式对抗网络》简介,25页ppt
专知会员服务
168+阅读 · 2020年6月28日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
152+阅读 · 2020年6月12日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
177+阅读 · 2020年5月29日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
59+阅读 · 2020年5月25日
【教程】自然语言处理中的迁移学习原理,41 页PPT
专知会员服务
94+阅读 · 2020年2月8日
《迁移学习简明手册》,93页pdf
专知会员服务
131+阅读 · 2019年12月9日
学界 | 综述论文:四大类深度迁移学习
机器之心
16+阅读 · 2018年9月15日
一文了解迁移学习经典算法
AI100
11+阅读 · 2018年8月4日
【迁移学习】简述迁移学习在深度学习中的应用
产业智能官
15+阅读 · 2018年1月9日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
推荐 | 一文看懂迁移学习:从基础概念到技术研究!
全球人工智能
4+阅读 · 2017年9月24日
深度 | 迁移学习全面概述:从基本概念到相关研究
七月在线实验室
15+阅读 · 2017年8月15日
范式大学|迁移学习实战:从算法到实践
机器学习研究会
15+阅读 · 2017年8月9日
已删除
Arxiv
31+阅读 · 2020年3月23日
Transfer Adaptation Learning: A Decade Survey
Arxiv
37+阅读 · 2019年3月12日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
11+阅读 · 2018年7月8日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
6+阅读 · 2018年2月28日
VIP会员
相关VIP内容
相关资讯
学界 | 综述论文:四大类深度迁移学习
机器之心
16+阅读 · 2018年9月15日
一文了解迁移学习经典算法
AI100
11+阅读 · 2018年8月4日
【迁移学习】简述迁移学习在深度学习中的应用
产业智能官
15+阅读 · 2018年1月9日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
推荐 | 一文看懂迁移学习:从基础概念到技术研究!
全球人工智能
4+阅读 · 2017年9月24日
深度 | 迁移学习全面概述:从基本概念到相关研究
七月在线实验室
15+阅读 · 2017年8月15日
范式大学|迁移学习实战:从算法到实践
机器学习研究会
15+阅读 · 2017年8月9日
相关论文
已删除
Arxiv
31+阅读 · 2020年3月23日
Transfer Adaptation Learning: A Decade Survey
Arxiv
37+阅读 · 2019年3月12日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
11+阅读 · 2018年7月8日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
6+阅读 · 2018年2月28日
微信扫码咨询专知VIP会员