新书速递-《自动化机器学习:方法,系统和挑战》-免费下载

2019 年 3 月 26 日 深度学习与NLP
新书速递-《自动化机器学习:方法,系统和挑战》-免费下载

    在过去十年中,机器学习研究和应用激增;特别是深度学习方法已经在许多应用领域取得了重要进展,例如计算机视觉、语音处理和游戏。然而,许多机器学习方法的性能对需要过多的设计的决策场景非常敏感,这对新用户构成了相当大的障碍。在蓬勃发展的深度学习领域尤其如此,人类工程师需要选择正确的神经网络、训练过程、正则化方法和所有这些组件的超参数,以使他们的网络以足够的性能完成他们应该做的事情。每个应用程序都必须重复这个过程。即使是专家也经常会遇到繁琐的反复试验,直到他们为特定的数据集找到一套好的选择。

    自动机器学习领域旨在以数据驱动、客观和自动的方式做出这些决定:用户只需提供数据,自动机器学习系统自动确定最适合这一特定应用的方法。因此,AutoML使那些对应用机器学习感兴趣但没有资源来详细了解机器学习背后技术的领域科学家可以使用最先进的机器学习方法。这可以被看作是机器学习的民主化:有了AutoML,定制的最先进的机器学习触手可及。

    正如我们在这本书里所展示的,自动学习方法已经足够成熟,可以与人类机器学习专家匹敌,有时甚至超越他们。简而言之,AutoML可以提高性能,同时节省大量的时间和金钱,因为机器学习专家既难找又昂贵。因此,近年来,人们对AutoML的商业兴趣急剧增长,一些主要的科技公司正在开发他们自己的AutoML系统。然而,我们注意到,开源自动学习系统比专有付费黑匣子服务更有利于机器学习民用化的目的。

    这本书概述了AutoML领域的快速发展。由于社区当前对深度学习的关注,一些研究者现在错误地将自动学习等同于神经架构搜索的主题;但是当然,如果你正在读这本书,你会知道—虽然网络连接存储是自动存储的一个很好的例子—但是自动存储比网络连接存储有更多的优点。这本书旨在为有兴趣开发他们自己的自动化方法的研究人员提供一些背景和出发点,为那些想把自动化应用到他们的问题上的从业者强调可用的系统,并为已经在自动化领域工作的研究人员提供一个最新的视角。这本书分为三个部分,分别论述了AutoML的这些不同方面。

     

本书内容概述


    第1部分:自动方法

    这一部分包括关于所有AutoML系统背后共同基础的最新概述章节。

     

    第1章:超参数优化

    第2章:元学习

    第3章:神经架构搜索

     

    第2部分:自动化系统

    本部分包括对各种可用的自动学习系统的深入描述,这些系统可用于开箱即用的有效机器学习。

     

    第4章:Auto—WEKA。

    第5章:Hyperopt-Sklearn

    第6章:Auto-Sklearn:高效和健壮的自动机器学习

    第7章:Auto-Net:面向自动调节的神经网络

    第8章: TPOT :自动化机器学习的工具

    第9章:自动统计学

     

    第3部分:自动挑战

    本部分深入分析了迄今为止面临的所有自动挑战。

     

    第10章: 2015-2018 AutoML挑战赛系列分析


书籍pdf下载地址

公众号中回复关键字“auto19”获取


    Duang,Duang,Duang!!!深度学习与NLP成立知识星球了。

    在这里不仅有行业内的大牛可以相互交流,学习。还会不定期分享深度学习、机器学习、自然语言处理等AI前沿技术相关的免费书籍,比如:

以及,国内外最新的前沿课程视频课程、重要的数据资源、前沿的论文等。

    还在等什么,扫描下方二维码加入我们吧。

往期精品内容推荐

Andrew Ng新课-《大众化AI》分享

分享一个100%获得高薪offer的机会(仅限30名)

李宏毅-《机器学习/深度学习-2019》视频及资料分享

UC Berkeley《人工智能基础-2018》课程及视频教程(带中英文字幕)分享

BERT-基于双向Transformer预训练模型原理详解

Hinton-符号AI与深度学习区别

实战经验分享-少量数据NLP场景下进行深度学习训练的建议

吴恩达 - 如何规划机器学习职业生涯

深度学习与计算机视觉任务应用综述

精品教材-中文版《Tensorflow内核剖析》分享

机器学习圣经《模式识别与机器学习(PRML)-2018》pdf分享

DeepMind-1123-深度学习与强化学习高阶课程分享(带中英文字幕)

扫描下方二维码可以订阅哦!

DeepLearning_NLP

深度学习与NLP

       商务合作请联系微信号:lqfarmerlq

登录查看更多
10

相关内容

自动机器学习(AutoML)是将机器学习应用于实际问题的过程的自动化过程。AutoML涵盖了从原始数据集到可部署的机器学习模型的完整管道。提出将AutoML作为基于人工智能的解决方案来应对不断增长的应用机器学习的挑战。 AutoML的高度自动化允许非专家使用机器学习模型和技术,而无需首先成为该领域的专家。 从机器学习角度讲,AutoML 可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统。但是它强调必须非常容易使用;从自动化角度讲,AutoML 则可以看作是设计一系列高级的控制系统去操作机器学习模型,使得模型可以自动化地学习到合适的参数和配置而无需人工干预。

深度学习在许多领域都取得了重大突破和进展。这是因为深度学习具有强大的自动表示能力。实践证明,网络结构的设计对数据的特征表示和最终的性能至关重要。为了获得良好的数据特征表示,研究人员设计了各种复杂的网络结构。然而,网络架构的设计在很大程度上依赖于研究人员的先验知识和经验。因此,一个自然的想法是尽量减少人为的干预,让算法自动设计网络的架构。因此,这需要更深入到强大的智慧。

近年来,大量相关的神经结构搜索算法(NAS)已经出现。他们对NAS算法进行了各种改进,相关研究工作复杂而丰富。为了减少初学者进行NAS相关研究的难度,对NAS进行全面系统的调查是必不可少的。之前的相关调查开始主要从NAS的基本组成部分: 搜索空间、搜索策略和评估策略对现有工作进行分类。这种分类方法比较直观,但是读者很难把握中间的挑战和标志性作品。因此,在本次调查中,我们提供了一个新的视角:首先概述最早的NAS算法的特点,总结这些早期NAS算法存在的问题,然后为后续的相关研究工作提供解决方案。并对这些作品进行了详细而全面的分析、比较和总结。最后,提出了今后可能的研究方向。

概述

深度学习已经在机器翻译[1-3]、图像识别[4,6,7]和目标检测[8-10]等许多领域展示了强大的学习能力。这主要是因为深度学习对非结构化数据具有强大的自动特征提取功能。深度学习已经将传统的手工设计特征[13,14]转变为自动提取[4,29,30]。这使得研究人员可以专注于神经结构的设计[11,12,19]。但是神经结构的设计很大程度上依赖于研究者的先验知识和经验,这使得初学者很难根据自己的实际需要对网络结构进行合理的修改。此外,人类现有的先验知识和固定的思维范式可能会在一定程度上限制新的网络架构的发现。

因此,神经架构搜索(NAS)应运而生。NAS旨在通过使用有限的计算资源,以尽可能少的人工干预的自动化方式设计具有最佳性能的网络架构。NAS- RL[11]和MetaQNN[12]的工作被认为是NAS的开创性工作。他们使用强化学习(RL)方法得到的网络架构在图像分类任务上达到了SOTA分类精度。说明自动化网络架构设计思想是可行的。随后,大规模演化[15]的工作再次验证了这一想法的可行性,即利用演化学习来获得类似的结果。然而,它们在各自的方法中消耗了数百天的GPU时间,甚至更多的计算资源。如此庞大的计算量对于普通研究者来说几乎是灾难性的。因此,如何减少计算量,加速网络架构的搜索[18-20,48,49,52,84,105]就出现了大量的工作。与NAS的提高搜索效率,NAS也迅速应用领域的目标检测(65、75、111、118),语义分割(63、64、120),对抗学习[53],建筑规模(114、122、124),多目标优化(39、115、125),platform-aware(28日34、103、117),数据增加(121、123)等等。另外,如何在性能和效率之间取得平衡也是需要考虑的问题[116,119]。尽管NAS相关的研究已经非常丰富,但是比较和复制NAS方法仍然很困难[127]。由于不同的NAS方法在搜索空间、超参数技巧等方面存在很多差异,一些工作也致力于为流行的NAS方法提供一个统一的评估平台[78,126]。

随着NAS相关研究的不断深入和快速发展,一些之前被研究者所接受的方法被新的研究证明是不完善的。很快就有了改进的解决方案。例如,早期的NAS在架构搜索阶段从无到有地训练每个候选网络架构,导致计算量激增[11,12]。ENAS[19]提出采用参数共享策略来加快架构搜索的进程。该策略避免了从头训练每个子网,但强制所有子网共享权值,从而大大减少了从大量候选网络中获得性能最佳子网的时间。由于ENAS在搜索效率上的优势,权值共享策略很快得到了大量研究者的认可[23,53,54]。不久,新的研究发现,广泛接受的权重分配策略很可能导致候选架构[24]的排名不准确。这将使NAS难以从大量候选架构中选择最优的网络架构,从而进一步降低最终搜索的网络架构的性能。随后DNA[21]将NAS的大搜索空间模块化成块,充分训练候选架构以减少权值共享带来的表示移位问题。此外,GDAS-NSAS[25]提出了一种基于新的搜索架构选择(NSAS)损失函数来解决超网络训练过程中由于权值共享而导致的多模型遗忘问题。

在快速发展的NAS研究领域中,类似的研究线索十分普遍,基于挑战和解决方案对NAS研究进行全面、系统的调研是非常有用的。以往的相关综述主要根据NAS的基本组成部分: 搜索空间、搜索策略和评估策略对现有工作进行分类[26,27]。这种分类方法比较直观,但不利于读者捕捉研究线索。因此,在本次综述查中,我们将首先总结早期NAS方法的特点和面临的挑战。基于这些挑战,我们对现有研究进行了总结和分类,以便读者能够从挑战和解决方案的角度进行一个全面和系统的概述。最后,我们将比较现有的研究成果,并提出未来可能的研究方向和一些想法。

成为VIP会员查看完整内容
0
63

高斯过程(GPs)为核机器的学习提供了一种有原则的、实用的、概率的方法。在过去的十年中,GPs在机器学习社区中得到了越来越多的关注,这本书提供了GPs在机器学习中理论和实践方面长期需要的系统和统一的处理。该书是全面和独立的,针对研究人员和学生在机器学习和应用统计学。

这本书处理监督学习问题的回归和分类,并包括详细的算法。提出了各种协方差(核)函数,并讨论了它们的性质。从贝叶斯和经典的角度讨论了模型选择。讨论了许多与其他著名技术的联系,包括支持向量机、神经网络、正则化网络、相关向量机等。讨论了包括学习曲线和PAC-Bayesian框架在内的理论问题,并讨论了几种用于大数据集学习的近似方法。这本书包含说明性的例子和练习,和代码和数据集在网上是可得到的。附录提供了数学背景和高斯马尔可夫过程的讨论。

成为VIP会员查看完整内容
0
82

【导读】元学习旨在学会学习,是当下研究热点之一。最近来自爱丁堡大学的学者发布了关于元学习最新综述论文《Meta-Learning in Neural Networks: A Survey》,值得关注,详述了元学习体系,包括定义、方法、应用、挑战,成为不可缺少的文献。

近年来,元学习领域,或者说“学会学习的学习”,引起了人们极大的兴趣。与传统的人工智能方法(使用固定的学习算法从头开始解决给定的任务)不同,元学习的目的是改进学习算法本身,考虑到多次学习的经验。这个范例提供了一个机会来解决深度学习的许多传统挑战,包括数据和计算瓶颈,以及泛化的基本问题。在这项综述中,我们描述了当代元学习的景观。我们首先讨论元学习的定义,并将其定位于相关领域,如迁移学习、多任务学习和超参数优化。然后,我们提出了一个新的分类法,对元学习方法的空间进行了更全面的细分。我们综述了元学习的一些有前途的应用和成功案例,包括小样本学习、强化学习和体系架构搜索。最后,我们讨论了突出的挑战和未来研究的有希望的领域。

https://arxiv.org/abs/2004.05439

概述

现代机器学习模型通常是使用手工设计的固定学习算法,针对特定任务从零开始进行训练。基于深度学习的方法在许多领域都取得了巨大的成功[1,2,3]。但是有明显的局限性[4]。例如,成功主要是在可以收集或模拟大量数据的领域,以及在可以使用大量计算资源的领域。这排除了许多数据本质上是稀有或昂贵的[5],或者计算资源不可用的应用程序[6,7]。

元学习提供了另一种范式,机器学习模型可以在多个学习阶段获得经验——通常覆盖相关任务的分布——并使用这些经验来改进未来的学习性能。这种“学会学习”[8]可以带来各种好处,如数据和计算效率,它更适合人类和动物的学习[9],其中学习策略在一生和进化时间尺度上都得到改善[10,9,11]。机器学习在历史上是建立在手工设计的特征上的模型,而特征的选择往往是最终模型性能的决定因素[12,13,14]。深度学习实现了联合特征和模型学习的承诺[15,16],为许多任务提供了巨大的性能改进[1,3]。神经网络中的元学习可以看作是集成联合特征、模型和算法学习的下一步。神经网络元学习有着悠久的历史[17,18,8]。然而,它作为推动当代深度学习行业前沿的潜力,导致了最近研究的爆炸性增长。特别是,元学习有可能缓解当代深度学习[4]的许多主要批评,例如,通过提供更好的数据效率,利用先验知识转移,以及支持无监督和自主学习。成功的应用领域包括:小样本图像识别[19,20]、无监督学习[21]、数据高效[22,23]、自导向[24]强化学习(RL)、超参数优化[25]和神经结构搜索(NAS)[26, 27, 28]。

在文献中可以找到许多关于元学习的不同观点。特别是由于不同的社区对这个术语的使用略有不同,所以很难定义它。与我们[29]相关的观点认为,元学习是管理“没有免费午餐”定理[30]的工具,并通过搜索最适合给定问题或问题族的算法(归纳偏差)来改进泛化。然而,从广义上来说,这个定义可以包括迁移、多任务、特征选择和模型集成学习,这些在今天通常不被认为是元学习。另一个关于元学习[31]的观点广泛地涵盖了基于数据集特性的算法选择和配置技术,并且很难与自动机器学习(AutoML)[32]区分开来。在这篇论文中,我们关注当代的神经网络元学习。我们将其理解为算法或归纳偏差搜索,但重点是通过端到端学习明确定义的目标函数(如交叉熵损失、准确性或速度)来实现的。

因此,本文提供了一个独特的,及时的,最新的调查神经网络元学习领域的快速增长。相比之下,在这个快速发展的领域,以往的研究已经相当过时,或者关注于数据挖掘[29、33、34、35、36、37、31]、自动[32]的算法选择,或者元学习的特定应用,如小样本学习[38]或神经架构搜索[39]。

我们讨论元学习方法和应用。特别是,我们首先提供了一个高层次的问题形式化,它可以用来理解和定位最近的工作。然后,我们在元表示、元目标和元优化器方面提供了一种新的方法分类。我们调查了几个流行和新兴的应用领域,包括少镜头、强化学习和架构搜索;并对相关的话题如迁移学习、多任务学习和自动学习进行元学习定位。最后,我们讨论了尚未解决的挑战和未来研究的领域。

未来挑战:

-元泛化 元学习在不同任务之间面临着泛化的挑战,这与传统机器学习中在不同实例之间进行泛化的挑战类似。

  • 任务分布的多模态特性
  • 任务族
  • 计算代价
  • 跨模态迁移和异构任务

总结

元学习领域最近出现了快速增长的兴趣。这带来了一定程度的混乱,比如它如何与邻近的字段相关联,它可以应用到什么地方,以及如何对它进行基准测试。在这次综述中,我们试图通过从方法学的角度对这一领域进行彻底的调查来澄清这些问题——我们将其分为元表示、元优化器和元目标的分类;从应用的角度来看。我们希望这项调查将有助于新人和实践者在这个不断增长的领域中定位自己,并强调未来研究的机会。

成为VIP会员查看完整内容
0
133

【导读】这本书对自动化机器学习(AutoML)的一般化方法进行了全面的阐述,并且收集了以这些方法为基础的系统的描述和一系列关于自动化机器学习系统领域的挑战。最近,机器学习在商业领域取得的成就和该领域的快速增长对机器学习产生了大量的需求,尤其是可以很容易地使用,并且不需要专家知识的机器学习方法。然而,当前许多表现优异的机器学习方法的大多都依赖人类专家去手动选择适当的机器学习架构以及模型的超参数(深度学习架构或者更加传统的机器学习方法)。为了克服这个问题,AutoML基于优化原理和机器学习本身去逐步实现机器学习的自动化。这本书可以为为研究人员和高年级学生提供一个进入这个快速发展的领域的切入点,同时也为打算在工作中使用AutoML的从业者提供参考。

第一部分 自动机器学习方法

每个机器学习系统都有超参数,而自动化机器学习最基本的任务就是自动设置这些超参数来优化性能。尤其是最近的深度神经网络严重依赖对于神经网络的结构、正则化和优化等超参数的选择。自动优化超参数(HPO)有几个重要的用例:​

  • 减少机器学习应用过程中所需的人力。这在自动化机器学习(AutoML)的上下文中尤其重要。
  • 提高机器学习算法的性能(根据实际问题调整算法);这已经在一些研究中对重要的机器学习基准方法产生了效果。
  • 提高科学研究的再现性和公平性。自动化的HPO显然比手工搜索更具可重复性。它使得不同的方法可以公平的比较,因为不同的方法只有在它们在相同级别的问题上调优时才能公平地进行比较。

第二部分 自动化机器学习系统

越来越多的非领域专家开始学习使用机器学习工具,他们需要非独立的解决方案。机器学习社区通过开源代码为这些用户提供了大量复杂的学习算法和特征选择方法,比如WEKA和mlr。这些开源包需要使用者做出两种选择:选择一种学习算法,并通过设置超参数对其进行定制。然而想要一次性做出正确的选择是非常具有挑战性的,这使得许多用户不得不通过算法的声誉或直觉来进行选择,并将超参数设置为默认值。当然,采用这种方法所获得的性能要比最佳方法进行超参数设置差得多。

第三部分 自动化机器学习面临的挑战

直到十年之前,机器学习还是一门鲜为人知的学科。对于机器学习领域的科学家们来说,这是一个“卖方市场”:他们研究产出了大量的算法,并不断地寻找新的有趣的数据集。大的互联网公司积累了大量的数据,如谷歌,Facebook,微软和亚马逊已经上线了基于机器学习的应用,数据科学竞赛也吸引了新一代的年轻科学家。如今,随着开放性数据的增加,政府和企业不断发掘机器学习的新的应用领域。然而,不幸的是机器学习并不是全自动的:依旧很难确定哪个算法一定适用于哪种问题和如何选择超参数。完全自动化是一个无界的问题,因为总是有一些从未遇到过的新设置。AutoML面临的挑战包括但不限于:

  • 监督学习问题(分类和回归)
  • 特征向量表示问题
  • 数据集特征分布问题(训练集,验证集和测试集分布相同)
  • 小于200兆字节的中型数据集
  • 有限的计算资源
成为VIP会员查看完整内容
0
88

近几年来,随着机器学习的普及,机器学习系统的公平性问题引起了实际的道德、社会等问题。图书《公平性与机器学习—局限与机遇》以公平性为核心问题来看待机器学习,提供了对当前机器学习实践以及为实现公平而提出的技术修复方案的批判性思考。

成为VIP会员查看完整内容
Fairness+and+Machine+Learning.pdf
0
20
小贴士
相关论文
FocalMix: Semi-Supervised Learning for 3D Medical Image Detection
Dong Wang,Yuan Zhang,Kexin Zhang,Liwei Wang
7+阅读 · 2020年3月20日
Liang Chen,Jintang Li,Jiaying Peng,Tao Xie,Zengxu Cao,Kun Xu,Xiangnan He,Zibin Zheng
32+阅读 · 2020年3月10日
Ramchandra Joshi,Purvi Goel,Raviraj Joshi
4+阅读 · 2020年1月19日
Wenwu Zhu,Xin Wang,Peng Cui
18+阅读 · 2020年1月2日
AutoML: A Survey of the State-of-the-Art
Xin He,Kaiyong Zhao,Xiaowen Chu
32+阅读 · 2019年8月14日
Meta-Transfer Learning for Few-Shot Learning
Qianru Sun,Yaoyao Liu,Tat-Seng Chua,Bernt Schiele
4+阅读 · 2018年12月6日
Thomas Elsken,Jan Hendrik Metzen,Frank Hutter
10+阅读 · 2018年9月5日
Antoine J. -P. Tixier
10+阅读 · 2018年8月30日
Yong Wang,Xiao-Ming Wu,Qimai Li,Jiatao Gu,Wangmeng Xiang,Lei Zhang,Victor O. K. Li
8+阅读 · 2018年7月8日
Srinivas Ravishankar, Chandrahas,Partha Pratim Talukdar
6+阅读 · 2018年1月8日
Top