本书介绍了在并行和分布式计算平台上扩展机器学习和数据挖掘方法的代表性方法的集成集合。对并行学习算法的需求是高度特定于任务的:在某些情况下,并行学习算法是由庞大的数据集驱动的,而在另一些情况下,并行学习算法是由模型复杂性或实时性能需求驱动的。为大规模机器学习选择适合于任务的算法和平台,需要了解可用选项的好处、权衡和约束。本书提供的解决方案涵盖了一系列的并行化平台,从FPGAs和gpu到多核系统和商品集群,并发编程框架包括CUDA、MPI、MapReduce和DryadLINQ,以及学习设置(监督、非监督、半监督和在线学习)。广泛的并行化的推进树,支持向量机,谱聚类,信念传播和其他流行的学习算法,并深入到几个应用,这本书适合研究人员,学生,和从业者。

成为VIP会员查看完整内容
0
19

相关内容

将图表示学习与多视图数据(边信息)相结合进行推荐是行业发展的趋势。现有的方法大多可以归类为多视图表示融合;他们首先构建一个图,然后将多视图数据集成到图中每个节点的一个紧凑表示中。然而,这些方法在工程和算法方面都引起了关注:1)多视图数据在工业中是丰富的,信息量大,可能超过单个向量的容量,2)由于多视图数据往往来自不同的分布,可能会引入归纳偏差。在本文中,我们使用一种多视图表示对齐方法来解决这个问题。特别地,我们提出了一个多任务多视图图表示学习框架(M2GRL)来学习网络规模推荐系统的多视图图的节点表示。M2GRL为每个单视图数据构造一个图,从多个图中学习多个单独的表示,并对跨视图关系进行对齐。M2GRL选择多任务学习范式,共同学习视图内表示和跨视图关系。此外,M2GRL利用同方差不确定性自适应调整训练任务的权重损失。我们在淘宝上部署了M2GRL,并在570亿个例子上训练它。根据离线指标和在线A/B测试,M2GRL的性能显著优于其他最先进的算法。淘宝多样性推荐的进一步探索表明了利用所产生的多种表示的有效性,我们认为这对于不同焦点的行业推荐任务是一个很有前景的方向。

成为VIP会员查看完整内容
0
6

通过机器学习的实际操作指南深入挖掘数据

机器学习: 为开发人员和技术专业人员提供实践指导和全编码的工作示例,用于开发人员和技术专业人员使用的最常见的机器学习技术。这本书包含了每一个ML变体的详细分析,解释了它是如何工作的,以及如何在特定的行业中使用它,允许读者在阅读过程中将所介绍的技术融入到他们自己的工作中。机器学习的一个核心内容是对数据准备的强烈关注,对各种类型的学习算法的全面探索说明了适当的工具如何能够帮助任何开发人员从现有数据中提取信息和见解。这本书包括一个完整的补充教师的材料,以方便在课堂上使用,使这一资源有用的学生和作为一个专业的参考。

机器学习的核心是一种基于数学和算法的技术,它是历史数据挖掘和现代大数据科学的基础。对大数据的科学分析需要机器学习的工作知识,它根据从训练数据中获得的已知属性形成预测。机器学习是一个容易理解的,全面的指导,为非数学家,提供明确的指导,让读者:

  • 学习机器学习的语言,包括Hadoop、Mahout和Weka
  • 了解决策树、贝叶斯网络和人工神经网络
  • 实现关联规则、实时和批量学习
  • 为安全、有效和高效的机器学习制定战略计划

通过学习构建一个可以从数据中学习的系统,读者可以在各个行业中增加他们的效用。机器学习是深度数据分析和可视化的核心,随着企业发现隐藏在现有数据中的金矿,这一领域的需求越来越大。对于涉及数据科学的技术专业人员,机器学习:为开发人员和技术专业人员提供深入挖掘所需的技能和技术。

成为VIP会员查看完整内容
0
39

高斯过程(GPs)为核机器的学习提供了一种有原则的、实用的、概率的方法。在过去的十年中,GPs在机器学习社区中得到了越来越多的关注,这本书提供了GPs在机器学习中理论和实践方面长期需要的系统和统一的处理。该书是全面和独立的,针对研究人员和学生在机器学习和应用统计学。

这本书处理监督学习问题的回归和分类,并包括详细的算法。提出了各种协方差(核)函数,并讨论了它们的性质。从贝叶斯和经典的角度讨论了模型选择。讨论了许多与其他著名技术的联系,包括支持向量机、神经网络、正则化网络、相关向量机等。讨论了包括学习曲线和PAC-Bayesian框架在内的理论问题,并讨论了几种用于大数据集学习的近似方法。这本书包含说明性的例子和练习,和代码和数据集在网上是可得到的。附录提供了数学背景和高斯马尔可夫过程的讨论。

成为VIP会员查看完整内容
0
23

创建健壮的软件需要使用高效的算法,但是程序员在问题出现之前很少考虑这些算法。这个更新版的算法简而言之描述了大量现有的算法,用于解决各种各样的问题,并帮助您选择和实现适合您需要的正确算法—只需足够的数学知识就可以让您理解和分析算法的性能。

本书的重点是应用,而不是理论,它提供了几种编程语言的高效代码解决方案,您可以轻松地适应特定的项目。每个主要算法都以设计模式的形式呈现,其中包含帮助您理解为什么以及何时使用该算法的信息。

有了这本书,你将: 解决特定的编码问题或改进现有解决方案的性能 快速定位与您想要解决的问题相关的算法,并确定为什么使用特定的算法是正确的 通过实现技巧获得C、c++、Java和Ruby中的算法解决方案 了解一个算法的预期性能,以及它需要在最佳状态下执行的条件 发现相似的设计决策对不同算法的影响 学习先进的数据结构,提高算法的效率

成为VIP会员查看完整内容
0
54

https://www.manning.com/books/mastering-large-datasets-with-python

现代数据科学解决方案需要简洁、易于阅读和可伸缩。在《用Python掌握大型数据集》一书中,作者J.T. Wolohan向您介绍了如何使用Python编码的功能影响方法来处理小型项目并对其进行扩展。您将探索有助于清晰性和可伸缩性的方法和内置Python工具,比如高性能并行方法,以及支持高数据吞吐量的分布式技术。本实用教程中丰富的实践练习将为任何大型数据科学项目锁定这些基本技能。

对这项技术

当应用于大量文件或分布式数据集时,在笔记本大小的数据上运行良好的编程技术可能会变慢,甚至完全失败。通过掌握强大的map和reduce范型,以及支持它的基于python的工具,您可以编写以数据为中心的应用程序,这些应用程序可以有效地扩展,而不需要在需求发生变化时重写代码库。

关于这本书

使用Python掌握大型数据集教会您编写可以处理任何大小的数据集的代码。您将从笔记本大小的数据集开始,这些数据集通过将大任务分解为可以同时运行的小任务来教会您并行化数据分析。然后将这些程序扩展到云服务器集群上的工业级数据集。有了map和reduce范型,您将探索像Hadoop和PySpark这样的工具来有效地处理大量的分布式数据集,使用机器学习加速决策制定,并使用AWS S3简化数据存储。

里面有什么

  • 对map和reduce范例的介绍

  • 并行化与多处理模块框架

  • 分布式计算的Hadoop和Spark

  • 运行AWS作业来处理大型数据集

成为VIP会员查看完整内容
0
101

机器学习的核心是有效地识别数据中的模式和关系。许多任务,例如查找词汇之间的关联以便您能够做出准确的搜索建议,或者在社交网络中定位具有相似兴趣的个人,很自然地以图Graph的形式表达出来。图驱动机器学习教你如何使用基于图形的算法和数据组织策略来开发高级的机器学习应用程序。

对这项技术

对于任何涉及到大型数据集中的模式匹配的任务,基于图的机器学习都是一个非常强大的工具。应用程序包括安全问题,如识别欺诈或检测网络入侵,应用程序领域,如社交网络或自然语言处理,以及更好的用户体验,通过准确的推荐和智能搜索。通过将数据组织和分析为图形,您的应用程序可以更流畅地使用以图形为中心的算法(如最近邻算法或页面排名算法),在这些算法中,快速识别和利用相关关系非常重要。现代图形数据存储(如Neo4j或Amazon Neptune)是支持图形机器学习的现成工具。

关于这本书

图驱动机器学习向您介绍图技术概念,强调图在机器学习和大数据平台中的作用。您将深入了解各种技术,包括数据源建模、算法设计、链接分析、分类和集群。在掌握核心概念之后,您将探索三个端到端项目,它们将演示体系结构、最佳设计实践、优化方法和常见缺陷。作者亚历山德罗·内格罗在构建基于图形的机器学习系统方面的丰富经验在每一章中都有所体现,你可以从他与真实客户合作的实例和具体场景中学习!

里面有什么

  • 机器学习项目的生命周期
  • 三端到端应用程序
  • 大数据平台中的图形
  • 数据源建模
  • 自然语言处理、推荐和相关搜索
  • 优化方法
成为VIP会员查看完整内容
graphpoweredmachinelearning-180627133931.pdf
Negro_GPML_MEAP_V01_ch1.pdf
0
196

【导读】这本书对自动化机器学习(AutoML)的一般化方法进行了全面的阐述,并且收集了以这些方法为基础的系统的描述和一系列关于自动化机器学习系统领域的挑战。最近,机器学习在商业领域取得的成就和该领域的快速增长对机器学习产生了大量的需求,尤其是可以很容易地使用,并且不需要专家知识的机器学习方法。然而,当前许多表现优异的机器学习方法的大多都依赖人类专家去手动选择适当的机器学习架构以及模型的超参数(深度学习架构或者更加传统的机器学习方法)。为了克服这个问题,AutoML基于优化原理和机器学习本身去逐步实现机器学习的自动化。这本书可以为为研究人员和高年级学生提供一个进入这个快速发展的领域的切入点,同时也为打算在工作中使用AutoML的从业者提供参考。

第一部分 自动机器学习方法

每个机器学习系统都有超参数,而自动化机器学习最基本的任务就是自动设置这些超参数来优化性能。尤其是最近的深度神经网络严重依赖对于神经网络的结构、正则化和优化等超参数的选择。自动优化超参数(HPO)有几个重要的用例:​

  • 减少机器学习应用过程中所需的人力。这在自动化机器学习(AutoML)的上下文中尤其重要。
  • 提高机器学习算法的性能(根据实际问题调整算法);这已经在一些研究中对重要的机器学习基准方法产生了效果。
  • 提高科学研究的再现性和公平性。自动化的HPO显然比手工搜索更具可重复性。它使得不同的方法可以公平的比较,因为不同的方法只有在它们在相同级别的问题上调优时才能公平地进行比较。

第二部分 自动化机器学习系统

越来越多的非领域专家开始学习使用机器学习工具,他们需要非独立的解决方案。机器学习社区通过开源代码为这些用户提供了大量复杂的学习算法和特征选择方法,比如WEKA和mlr。这些开源包需要使用者做出两种选择:选择一种学习算法,并通过设置超参数对其进行定制。然而想要一次性做出正确的选择是非常具有挑战性的,这使得许多用户不得不通过算法的声誉或直觉来进行选择,并将超参数设置为默认值。当然,采用这种方法所获得的性能要比最佳方法进行超参数设置差得多。

第三部分 自动化机器学习面临的挑战

直到十年之前,机器学习还是一门鲜为人知的学科。对于机器学习领域的科学家们来说,这是一个“卖方市场”:他们研究产出了大量的算法,并不断地寻找新的有趣的数据集。大的互联网公司积累了大量的数据,如谷歌,Facebook,微软和亚马逊已经上线了基于机器学习的应用,数据科学竞赛也吸引了新一代的年轻科学家。如今,随着开放性数据的增加,政府和企业不断发掘机器学习的新的应用领域。然而,不幸的是机器学习并不是全自动的:依旧很难确定哪个算法一定适用于哪种问题和如何选择超参数。完全自动化是一个无界的问题,因为总是有一些从未遇到过的新设置。AutoML面临的挑战包括但不限于:

  • 监督学习问题(分类和回归)
  • 特征向量表示问题
  • 数据集特征分布问题(训练集,验证集和测试集分布相同)
  • 小于200兆字节的中型数据集
  • 有限的计算资源
成为VIP会员查看完整内容
0
55
Top