关于大数据技术的信息很多,但将这些技术拼接到端到端企业数据平台是一项艰巨的任务,没有得到广泛的讨论。通过这本实用的书,您将学习如何在本地和云中构建大数据基础设施,并成功地构建一个现代数据平台。

本书非常适合企业架构师、IT经理、应用程序架构师和数据工程师,它向您展示了如何克服Hadoop项目期间出现的许多挑战。在深入了解以下内容之前,您将在一个彻底的技术入门中探索Hadoop和大数据领域中可用的大量工具:

  • 基础设施: 查看现代数据平台中的所有组件层,从服务器到数据中心,为企业中的数据建立坚实的基础

-平台: 了解部署、操作、安全性、高可用性和灾难恢复的各个方面,以及将平台与企业IT的其他部分集成在一起所需了解的所有内容

  • 将Hadoop带到云端: 学习在云中运行大数据平台的重要架构方面,同时保持企业安全性和高可用性
成为VIP会员查看完整内容
0
38

相关内容

首先加速介绍R生态系统、编程语言和工具,包括R脚本和RStudio。通过使用许多例子和项目,这本书教你如何将数据导入R,以及如何使用R处理这些数据。一旦基础扎实,《实用R 4》的其余部分将深入具体的项目和例子,从使用R和LimeSurvey运行和分析调查开始。接下来,您将使用R和MouselabWeb执行高级统计分析。然后,您将看到在没有统计信息的情况下R如何工作,包括如何使用R自动化数据格式化、操作、报告和自定义函数。

本书的最后一部分讨论了在服务器上使用R;您将使用R构建一个脚本,该脚本可以运行RStudio服务器并监视报表源的更改,以便在发生更改时向用户发出警报。这个项目包括定期电子邮件提醒和推送通知。最后,您将使用R创建一个定制的个人最重要信息的每日纲要报告,例如天气报告、每日日历、待办事项等等。这演示了如何自动化这样一个过程,以便用户每天早上导航到相同的web页面并获得更新的报告。

你将学到什么

  • 设置并运行R脚本,包括在新机器上的安装以及下载和配置R
  • 使用RStudio Server将任何机器变成可从任何地方访问的强大数据分析平台
  • 编写基本的脚本并修改现有的脚本以满足自己的需要。
  • 在R中创建基本的HTML报告,根据需要插入信息
  • 构建一个基本的R包并发布它

这本书是给谁的

  • 建议您之前接触过统计学、编程和SAS,但不是必需的。
成为VIP会员查看完整内容
0
14

流式数据介绍了流式和实时数据系统的概念和要求。这本书是一个思想丰富的教程,教你如何有效地与快速流动的数据交互。

对这项技术

作为人类,我们不断地过滤和解密流向我们的信息。以同样的方式,流数据应用程序可以完成一些惊人的任务,比如读取实时位置数据以推荐附近的服务,实时跟踪机器故障,以及在客户离开商店之前发送数字收据。流数据技术和技术的最新进展使任何开发人员都有可能构建这些应用程序,如果他们有正确的心态。这本书会让你加入他们。

关于这本书

流式数据是一个思想丰富的教程,教你如何有效地与快速流动的数据交互。通过相关的示例和演示用例,您将探索读取、分析、共享和存储流数据的应用程序的设计。在此过程中,您将发现关键技术的角色,如Spark、Storm、Kafka、Flink、RabbitMQ等。这本书在宏观思维和实现细节之间提供了完美的平衡。

里面有什么

收集实时数据的正确方法 构建流管道 分析数据 何时使用何种技术

https://www.manning.com/books/streaming-data

成为VIP会员查看完整内容
0
41

内容简介这本书的前四章集中在足够的理论和基础,给你,实践者,为这本书剩下的部分一个工作的基础。最后五章将从这些概念出发,带领您通过一系列使用DL4J进行深度学习的实践路径。

  • 建立深度网络
  • 高级调优技术
  • 矢量化不同的数据类型
  • 运行深度学习工作流程的Spark

在本书中,我们交替使用DL4J和Deeplearning4j这两个名称。这两个术语都指的是Deeplearning4j库中的工具套件。

我们以这种方式设计这本书,因为我们觉得有必要让这本书既包含足够的理论,又足够的实际,以构建生产级的深度学习工作流。我们认为,这种混合方法的书的覆盖面适合这个空间。

第一章回顾了机器学习的一般概念,特别是深度学习,让读者快速了解了解本书其余部分所需要的基础知识。我们增加了这一章,因为许多初学者可以使用这些概念的复习或入门,我们想让尽可能多的读者可以访问这个项目。

第2章以第1章的概念为基础,并为您提供了神经网络的基础。它在很大程度上是神经网络理论的一个章节,但是我们的目标是用一种可访问的方式来呈现信息。

第三章在前两章的基础上更进一步,让你了解网络是如何从神经网络的基本原理发展而来的。

第四章介绍了深层网络的四种主要架构,并为本书的其余部分提供了基础。

在第5章中,我们将使用前半部分中的技术,带您浏览一些Java代码示例。

第6章和第7章讨论了调优一般神经网络的基本原理,然后讨论了如何调优深度网络的特定架构。这些章节是平台无关的,将适用于任何深度学习库的实践。

第8章是对矢量化技术和如何使用DataVec (DL4J的ETL和矢量化工作流工具)的基础知识的回顾。

第9章总结了该书的主体部分,回顾了如何在Spark和Hadoop上本地使用DL4J,并举例说明了可以在自己的Spark集群上运行的三个实际示例。

这本书有许多附录章节的主题是相关的,但不适合直接放在主要章节。主题包括:

  • 人工智能
  • 在DL4J项目中使用Maven
  • 使用GPU
  • 使用ND4J API
  • 更多

部分截图:

成为VIP会员查看完整内容
Deep Learning - A Practitioner's Approach.pdf
0
55

找到有合适技能的人。本书阐明了创建高效能数据集成团队的最佳实践,使您能够理解计划、设计和监视一次性迁移和日常集成系统的技能和需求、文档和解决方案。

数据的增长是爆炸式的。随着跨企业系统的多个信息源的不断到达,将这些系统组合成一个单一的、内聚的、可记录的单元变得比以往任何时候都更加重要。但是,与其他软件规程相比,集成的方法有很大的不同,它要求能够编写代码、协作并将复杂的业务规则分解为可伸缩的模型。

数据迁移和集成可能很复杂。在许多情况下,项目团队将实际的迁移保留到项目的最后一个周末,任何问题都可能导致错过最后期限,或者在最坏的情况下导致需要在部署后进行协调的数据损坏。本书详细介绍了如何进行战略规划以避免这些最后时刻的风险,以及如何为未来的集成项目构建正确的解决方案。

你会学到什么

  • 理解集成的“语言”,以及它们在优先级和所有权方面的关系
  • 创建有价值的文档,带领您的团队从发现到部署
  • 研究当今市场上最重要的集成工具
  • 监视您的错误日志,并查看输出如何增加持续改进的周期
  • 为整个企业提供有价值的集成解决方案

这本书是给谁看的

构建相应实践的执行和集成团队领导。它也适用于需要额外熟悉ETL工具、集成过程和相关项目可交付成果的集成架构师、开发人员和业务分析人员

成为VIP会员查看完整内容
0
33

这本书在对算法工作原理的高层次理解和对优化模型的具体细节的了解之间找到一个平衡点。这本书将给你的信心和技能时,开发所有主要的机器学习模型。在这本Pro机器学习算法中,您将首先在Excel中开发算法,以便在用Python/R实现模型之前,实际了解可以在模型中调优的所有细节。

你将涵盖所有主要的算法:监督和非监督学习,其中包括线性/逻辑回归;k - means聚类;主成分分析;推荐系统;决策树;随机森林;“GBM”;和神经网络。您还将通过CNNs、RNNs和word2vec等文本挖掘工具了解最新的深度学习。你不仅要学习算法,还要学习特征工程的概念来最大化模型的性能。您将看到该理论与案例研究,如情绪分类,欺诈检测,推荐系统,和图像识别,以便您得到最佳的理论和实践为工业中使用的绝大多数机器学习算法。在学习算法的同时,您还将接触到在所有主要云服务提供商上运行的机器学习模型。

你会学到什么?

  • 深入了解所有主要的机器学习和深度学习算法
  • 充分理解在构建模型时要避免的陷阱
  • 在云中实现机器学习算法
  • 通过对每种算法的案例研究,采用动手实践的方法
  • 学习集成学习的技巧,建立更精确的模型
  • 了解R/Python编程的基础知识和Keras深度学习框架

这本书是给谁看的

希望转换到数据科学角色的业务分析师/ IT专业人员。想要巩固机器学习知识的数据科学家。

成为VIP会员查看完整内容
0
69

https://www.manning.com/books/mastering-large-datasets-with-python

现代数据科学解决方案需要简洁、易于阅读和可伸缩。在《用Python掌握大型数据集》一书中,作者J.T. Wolohan向您介绍了如何使用Python编码的功能影响方法来处理小型项目并对其进行扩展。您将探索有助于清晰性和可伸缩性的方法和内置Python工具,比如高性能并行方法,以及支持高数据吞吐量的分布式技术。本实用教程中丰富的实践练习将为任何大型数据科学项目锁定这些基本技能。

对这项技术

当应用于大量文件或分布式数据集时,在笔记本大小的数据上运行良好的编程技术可能会变慢,甚至完全失败。通过掌握强大的map和reduce范型,以及支持它的基于python的工具,您可以编写以数据为中心的应用程序,这些应用程序可以有效地扩展,而不需要在需求发生变化时重写代码库。

关于这本书

使用Python掌握大型数据集教会您编写可以处理任何大小的数据集的代码。您将从笔记本大小的数据集开始,这些数据集通过将大任务分解为可以同时运行的小任务来教会您并行化数据分析。然后将这些程序扩展到云服务器集群上的工业级数据集。有了map和reduce范型,您将探索像Hadoop和PySpark这样的工具来有效地处理大量的分布式数据集,使用机器学习加速决策制定,并使用AWS S3简化数据存储。

里面有什么

  • 对map和reduce范例的介绍

  • 并行化与多处理模块框架

  • 分布式计算的Hadoop和Spark

  • 运行AWS作业来处理大型数据集

成为VIP会员查看完整内容
0
110
Top