https://www.manning.com/books/mastering-large-datasets-with-python

现代数据科学解决方案需要简洁、易于阅读和可伸缩。在《用Python掌握大型数据集》一书中,作者J.T. Wolohan向您介绍了如何使用Python编码的功能影响方法来处理小型项目并对其进行扩展。您将探索有助于清晰性和可伸缩性的方法和内置Python工具,比如高性能并行方法,以及支持高数据吞吐量的分布式技术。本实用教程中丰富的实践练习将为任何大型数据科学项目锁定这些基本技能。

对这项技术

当应用于大量文件或分布式数据集时,在笔记本大小的数据上运行良好的编程技术可能会变慢,甚至完全失败。通过掌握强大的map和reduce范型,以及支持它的基于python的工具,您可以编写以数据为中心的应用程序,这些应用程序可以有效地扩展,而不需要在需求发生变化时重写代码库。

关于这本书

使用Python掌握大型数据集教会您编写可以处理任何大小的数据集的代码。您将从笔记本大小的数据集开始,这些数据集通过将大任务分解为可以同时运行的小任务来教会您并行化数据分析。然后将这些程序扩展到云服务器集群上的工业级数据集。有了map和reduce范型,您将探索像Hadoop和PySpark这样的工具来有效地处理大量的分布式数据集,使用机器学习加速决策制定,并使用AWS S3简化数据存储。

里面有什么

  • 对map和reduce范例的介绍

  • 并行化与多处理模块框架

  • 分布式计算的Hadoop和Spark

  • 运行AWS作业来处理大型数据集

成为VIP会员查看完整内容
0
140

相关内容

Python是一种面向对象的解释型计算机程序设计语言,在设计中注重代码的可读性,同时也是一种功能强大的通用型语言。

机器学习已经成为许多商业应用和研究项目中不可或缺的一部分,但这一领域并不仅限于拥有广泛研究团队的大公司。如果您使用Python,即使是初学者,这本书也会教你构建自己的机器学习解决方案的实用方法。今天,有了所有可用的数据,机器学习应用程序只受限于你的想象力。

您将学习使用Python和scikit-learn库创建成功的机器学习应用程序所需的步骤。两位作者安德烈亚斯•穆勒(Andreas Muller)和萨拉•圭多(Sarah Guido)关注的是使用机器学习算法的实践层面,而不是背后的数学。熟悉NumPy和matplotlib库将有助于您从本书获得更多信息。

通过这本书,你会学到 :

  • 机器学习的基本概念和应用
  • 广泛应用的机器学习算法的优缺点
  • 如何表示机器学习处理过的数据,包括关注哪些数据方面
  • 先进的模型评估和参数调整方法
  • 用于链接模型和封装工作流的管道概念
  • 处理文本数据的方法,包括特定于文本的处理技术
  • 提高机器学习和数据科学技能的建议
成为VIP会员查看完整内容
0
87

Manning最畅销的Java 8书籍已经被修订为Java 9和Java 10!在Modern Java In Action中,读者可以使用最新的特性和技术,在已有的Java语言技能的基础上进行构建。

Java 9的发布建立在Java 8令人激动的基础之上。除了Java 8的lambdas和streams之外,Java 9还添加了许多自己的新特性。它包含了新的库特性来支持响应式编程,这为用户提供了一种新的方式来思考编程和编写更易于阅读和维护的代码。

成为VIP会员查看完整内容
0
43

简单易懂,读起来很有趣,介绍Python对于初学者和语言新手都是理想的。作者Bill Lubanovic带您从基础知识到更复杂和更多样的主题,混合教程和烹饪书风格的代码配方来解释Python 3中的概念。章节结尾的练习可以帮助你练习所学的内容。

您将获得该语言的坚实基础,包括测试、调试、代码重用和其他开发技巧的最佳实践。本书还向您展示了如何使用各种Python工具和开放源码包将Python用于商业、科学和艺术领域的应用程序。

  • 学习简单的数据类型,以及基本的数学和文本操作
  • 在Python的内置数据结构中使用数据协商技术
  • 探索Python代码结构,包括函数的使用
  • 用Python编写大型程序,包括模块和包
  • 深入研究对象、类和其他面向对象的特性
  • 检查从平面文件到关系数据库和NoSQL的存储
  • 使用Python构建web客户机、服务器、api和服务
  • 管理系统任务,如程序、进程和线程
  • 了解并发性和网络编程的基础知识

成为VIP会员查看完整内容
0
116

考虑到当今使用的各种大数据应用程序的复杂性,cpu密集型的数据处理任务已经变得至关重要。降低每个进程的CPU利用率对于提高应用程序的总体速度非常重要。

这本书将教你如何执行计算的并行执行,将它们分布在一台机器的多个处理器上,从而提高大数据处理任务的整体性能。我们将讨论同步和异步模型、共享内存和文件系统、各种进程之间的通信、同步等等。

你会学到什么

  • 介绍并行计算和分布式计算
  • 同步和异步编程
  • 探索Python中的并行性
  • 分布式应用
  • 云中的Python
  • 在HPC集群上的Python
  • 测试和调试分布式应用程序
成为VIP会员查看完整内容
0
52

《算法精解:C语言描述》,机械工业出版社出版,外文书名:Mastering Algorithms with C。作者:(美)Kyle Loudon (作者),‎ 肖翔 (译者),‎ 陈舸 (译者) 。《算法精解:C语言描述》是数据结构和算法领域的经典之作,十余年来,畅销不衰!全书共分为三部分:部分首先介绍了数据结构和算法的概念,以及使用它们的原因和意义,然后讲解了数据结构和算法中最常用的技术——指针和递归,最后还介绍了算法的分析方法,旨在为读者学习这本书打下坚实的基础;第二部分对链表、栈、队列、集合、哈希表、堆、图等常用数据结构进行了深入阐述;第三部分对排序、搜索数值计算、数据压缩、数据加密、图算法、几何算法等经典算法进行了精辟的分析和讲解。

本书的众多特色使得它在同类书中独树一帜:具体实现都采用正式的C语言代码而不是伪代码,在很多数据结构和算法的实现过程中,有大量细节问题是伪代码不能解决的;每一章都有精心组织的主题和应用;全部示例来自真实的应用,不只是一般的练习;对每种数据结构、算法和示例都进行了详细分析;每一章的末尾都会有一系列问题和对应的回答,旨在强调这一章的重要思想……

本书中的代码尤为值得强调:所有实现都采用C语言编写,所有代码都优先用于教学目的,所有代码都在4种平台上经过完整测试,头文件记录了所有公共的接口,命名规则适用于全书所有的代码,所有的代码都包含大量注释……

《O’Reilly精品图书系列·算法精解:C语言描述》内容包括: · 数据结构和算法的概念,以及使用它们的原因和意义 · 指针和递归 · 算法分析 · 常用数据结构:链表、栈、队列、集合、哈希表、树、堆、优先级队列以及图 · 排序和搜索 · 数值计算 · 数据压缩 · 数据加密 · 图算法 · 几何算法

成为VIP会员查看完整内容
Mastering Algorithms with C.pdf
0
58

Python是一种多范式编程语言,已经成为数据科学家进行数据分析、可视化和机器学习的首选语言。有没有想过如何成为有效处理数据分析问题的专家,解决这些问题,并从数据中提取所有可用信息?好了,别再找了,这就是你要的书!

通过这个全面的指南,您将探索数据,并以一种有意义的方式展示统计分析的结果和结论。您将能够快速准确地执行实际操作的排序、缩减和后续分析,并充分理解数据分析方法如何支持业务决策。

您将首先了解Python中可用的数据分析工具,然后探索用于识别数据模式的统计模型。渐渐地,您将使用Python、panda和SciPy回顾统计推断。在此之后,我们将集中于使用计算工具执行回归,您将了解如何用算法的方式识别数据中的集群。最后,我们将深入探讨使用贝叶斯方法量化因果关系的高级技术,您将发现如何使用Python的工具进行监督机器学习。

你会学到什么

  • 将各种数据读入、排序并映射到Python和panda中
  • 识别模式,以便理解和研究数据
  • 使用统计模型来发现数据中的模式
  • 回顾使用Python、panda和SciPy的经典统计推断
  • 使用聚类检测数据中的相似性和差异性
  • 清理数据,使其有用
  • 在Jupyter笔记本生产出版准备工作数据纳入
成为VIP会员查看完整内容
0
61

掌握通过机器学习和深度学习识别和解决复杂问题的基本技能。使用真实世界的例子,利用流行的Python机器学习生态系统,这本书是你学习机器学习的艺术和科学成为一个成功的实践者的完美伴侣。本书中使用的概念、技术、工具、框架和方法将教会您如何成功地思考、设计、构建和执行机器学习系统和项目。

使用Python进行的实际机器学习遵循结构化和全面的三层方法,其中包含了实践示例和代码。

第1部分侧重于理解机器学习的概念和工具。这包括机器学习基础,对算法、技术、概念和应用程序的广泛概述,然后介绍整个Python机器学习生态系统。还包括有用的机器学习工具、库和框架的简要指南。

第2部分详细介绍了标准的机器学习流程,重点介绍了数据处理分析、特征工程和建模。您将学习如何处理、总结和可视化各种形式的数据。特性工程和选择方法将详细介绍真实数据集,然后是模型构建、调优、解释和部署。

第3部分探讨了多个真实世界的案例研究,涵盖了零售、交通、电影、音乐、营销、计算机视觉和金融等不同领域和行业。对于每个案例研究,您将学习各种机器学习技术和方法的应用。动手的例子将帮助您熟悉最先进的机器学习工具和技术,并了解什么算法最适合任何问题。

实用的机器学习与Python将授权您开始解决您自己的问题与机器学习今天!

你将学习:

  • 执行端到端机器学习项目和系统
  • 使用行业标准、开放源码、健壮的机器学习工具和框架实现实践示例
  • 回顾描述机器学习和深度学习在不同领域和行业中的应用的案例研究
  • 广泛应用机器学习模型,包括回归、分类和聚类。
  • 理解和应用深度学习的最新模式和方法,包括CNNs、RNNs、LSTMs和transfer learning。

这本书是给谁看的 IT专业人士、分析师、开发人员、数据科学家、工程师、研究生

目录:

Part I: Understanding Machine Learning

  • Chapter 1: Machine Learning Basics
  • Chapter 2: The Python Machine Learning Ecosystem Part II: The Machine Learning Pipeline
  • Chapter 3: Processing, Wrangling and Visualizing Data
  • Chapter 4: Feature Engineering and Selection
  • Chapter 5: Building, Tuning and Deploying Models Part III: Real-World Case Studies
  • Chapter 6: Analyzing Bike Sharing Trends
  • Chapter 7: Analyzing Movie Reviews Sentiment
  • Chapter 8: Customer Segmentation and Effective Cross Selling
  • Chapter 9: Analyzing Wine Types and Quality
  • Chapter 10: Analyzing Music Trends and Recommendations
  • Chapter 11: Forecasting Stock and Commodity Prices

Chapter 12: Deep Learning for Computer Vision

成为VIP会员查看完整内容
0
124

主题: Mastering Large Datasets with Python

简介: 使用Python掌握大型数据集可以教会您编写可以处理任何大小的数据集的代码。您将从笔记本大小的数据集开始,这些数据集通过将大任务分解为可以同时运行的小任务来教您并行化数据分析。然后将这些程序扩展到云服务器集群上的工业大小的数据集。随着map和reduce范例的稳固就位,您将探索Hadoop和PySpark等工具,以高效地处理大量分布式数据集,使用机器学习加快决策,并使用AWS S3简化数据存储。

作者简介: John T. Wolohan是Booz Allen Hamilton的首席数据科学家,也是印第安纳大学的博士研究员。

成为VIP会员查看完整内容
0
36

简介:

探索用Python编写代码的正确方法。这本书提供的技巧和技术,你需要生产更干净,无错误,和雄辩的Python项目。

要获得更好的代码,首先要理解对代码进行格式化和编制文档以获得最大可读性的重要性,利用内置的数据结构和Python字典来提高可维护性,并使用模块和元类来有效地组织代码。然后,您将深入了解Python语言的新特性,并学习如何有效地利用它们。接下来,您将解码关键概念,如异步编程、Python数据类型、类型提示和路径处理。学习在Python代码中调试和执行单元测试和集成测试的技巧,以确保您的代码可以投入生产。学习旅程的最后一段为您提供了版本管理、实时代码管理和智能代码完成的基本工具。 在阅读和使用这本书之后,您将熟练地编写干净的Python代码,并成功地将这些原则应用到您自己的Python项目中。

目录:

  • Pythonic思维
  • 数据结构
  • 编写更好的函数和类
  • 使用模块和元类
  • 装饰器和上下文管理器
  • 生成器和迭代器
  • 利用新的Python特性
  • 附录:一些很棒的Python工具

作者:

Sunil Kapil在过去十年一直从事软件行业,用Python和其他几种语言编写产品代码。 他曾是一名软件工程师,主要从事网络和移动服务的后端工作。他开发、部署并维护了数百万用户喜爱和使用的从小型到大型的生产项目。他与世界各地知名软件公司的大小团队在不同的专业环境中完成了这些项目。他也是开源的热情倡导者,并不断为Zulip Chat和Black等项目贡献力量。Sunil经常在各种会议上发表关于Python的演讲。

成为VIP会员查看完整内容
1
107
小贴士
相关VIP内容
专知会员服务
87+阅读 · 2020年6月4日
专知会员服务
43+阅读 · 2020年5月22日
专知会员服务
116+阅读 · 2020年5月17日
专知会员服务
52+阅读 · 2020年5月3日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
107+阅读 · 2020年1月1日
相关资讯
Python 杠上 Java、C/C++,赢面有几成?
CSDN
5+阅读 · 2018年4月12日
这几本Python新书特别赞
图灵教育
5+阅读 · 2018年3月1日
Python & 机器学习之项目实践 | 赠书
人工智能头条
10+阅读 · 2017年12月26日
【入门】数据分析六部曲
36大数据
8+阅读 · 2017年12月6日
Python NLP 入门教程
大数据技术
16+阅读 · 2017年10月24日
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
12+阅读 · 2016年6月12日
相关论文
Few-shot Natural Language Generation for Task-Oriented Dialog
Baolin Peng,Chenguang Zhu,Chunyuan Li,Xiujun Li,Jinchao Li,Michael Zeng,Jianfeng Gao
22+阅读 · 2020年2月27日
Tianshuo Zhou,Ziyang Li,Gong Cheng,Jun Wang,Yu'Ang Wei
4+阅读 · 2019年10月11日
Stefan Constantin,Jan Niehues,Alex Waibel
3+阅读 · 2018年12月17日
Meta-Transfer Learning for Few-Shot Learning
Qianru Sun,Yaoyao Liu,Tat-Seng Chua,Bernt Schiele
5+阅读 · 2018年12月6日
Training Generative Adversarial Networks Via Turing Test
Jianlin Su
3+阅读 · 2018年10月25日
Myle Ott,Sergey Edunov,David Grangier,Michael Auli
3+阅读 · 2018年6月1日
Jeremy Howard,Sebastian Ruder
3+阅读 · 2018年5月23日
Alon Talmor,Jonathan Berant
5+阅读 · 2018年3月18日
K M Annervaz,Somnath Basu Roy Chowdhury,Ambedkar Dukkipati
10+阅读 · 2018年2月16日
Top