主题: Mastering Large Datasets with Python

简介: 使用Python掌握大型数据集可以教会您编写可以处理任何大小的数据集的代码。您将从笔记本大小的数据集开始,这些数据集通过将大任务分解为可以同时运行的小任务来教您并行化数据分析。然后将这些程序扩展到云服务器集群上的工业大小的数据集。随着map和reduce范例的稳固就位,您将探索Hadoop和PySpark等工具,以高效地处理大量分布式数据集,使用机器学习加快决策,并使用AWS S3简化数据存储。

作者简介: John T. Wolohan是Booz Allen Hamilton的首席数据科学家,也是印第安纳大学的博士研究员。

成为VIP会员查看完整内容
0
36

相关内容

Python是一种面向对象的解释型计算机程序设计语言,在设计中注重代码的可读性,同时也是一种功能强大的通用型语言。

机器学习已经成为许多商业应用和研究项目中不可或缺的一部分,但这一领域并不仅限于拥有广泛研究团队的大公司。如果您使用Python,即使是初学者,这本书也会教你构建自己的机器学习解决方案的实用方法。今天,有了所有可用的数据,机器学习应用程序只受限于你的想象力。

您将学习使用Python和scikit-learn库创建成功的机器学习应用程序所需的步骤。两位作者安德烈亚斯•穆勒(Andreas Muller)和萨拉•圭多(Sarah Guido)关注的是使用机器学习算法的实践层面,而不是背后的数学。熟悉NumPy和matplotlib库将有助于您从本书获得更多信息。

通过这本书,你会学到 :

  • 机器学习的基本概念和应用
  • 广泛应用的机器学习算法的优缺点
  • 如何表示机器学习处理过的数据,包括关注哪些数据方面
  • 先进的模型评估和参数调整方法
  • 用于链接模型和封装工作流的管道概念
  • 处理文本数据的方法,包括特定于文本的处理技术
  • 提高机器学习和数据科学技能的建议
成为VIP会员查看完整内容
0
87

《算法精解:C语言描述》,机械工业出版社出版,外文书名:Mastering Algorithms with C。作者:(美)Kyle Loudon (作者),‎ 肖翔 (译者),‎ 陈舸 (译者) 。《算法精解:C语言描述》是数据结构和算法领域的经典之作,十余年来,畅销不衰!全书共分为三部分:部分首先介绍了数据结构和算法的概念,以及使用它们的原因和意义,然后讲解了数据结构和算法中最常用的技术——指针和递归,最后还介绍了算法的分析方法,旨在为读者学习这本书打下坚实的基础;第二部分对链表、栈、队列、集合、哈希表、堆、图等常用数据结构进行了深入阐述;第三部分对排序、搜索数值计算、数据压缩、数据加密、图算法、几何算法等经典算法进行了精辟的分析和讲解。

本书的众多特色使得它在同类书中独树一帜:具体实现都采用正式的C语言代码而不是伪代码,在很多数据结构和算法的实现过程中,有大量细节问题是伪代码不能解决的;每一章都有精心组织的主题和应用;全部示例来自真实的应用,不只是一般的练习;对每种数据结构、算法和示例都进行了详细分析;每一章的末尾都会有一系列问题和对应的回答,旨在强调这一章的重要思想……

本书中的代码尤为值得强调:所有实现都采用C语言编写,所有代码都优先用于教学目的,所有代码都在4种平台上经过完整测试,头文件记录了所有公共的接口,命名规则适用于全书所有的代码,所有的代码都包含大量注释……

《O’Reilly精品图书系列·算法精解:C语言描述》内容包括: · 数据结构和算法的概念,以及使用它们的原因和意义 · 指针和递归 · 算法分析 · 常用数据结构:链表、栈、队列、集合、哈希表、树、堆、优先级队列以及图 · 排序和搜索 · 数值计算 · 数据压缩 · 数据加密 · 图算法 · 几何算法

成为VIP会员查看完整内容
Mastering Algorithms with C.pdf
0
58

Python是一种多范式编程语言,已经成为数据科学家进行数据分析、可视化和机器学习的首选语言。有没有想过如何成为有效处理数据分析问题的专家,解决这些问题,并从数据中提取所有可用信息?好了,别再找了,这就是你要的书!

通过这个全面的指南,您将探索数据,并以一种有意义的方式展示统计分析的结果和结论。您将能够快速准确地执行实际操作的排序、缩减和后续分析,并充分理解数据分析方法如何支持业务决策。

您将首先了解Python中可用的数据分析工具,然后探索用于识别数据模式的统计模型。渐渐地,您将使用Python、panda和SciPy回顾统计推断。在此之后,我们将集中于使用计算工具执行回归,您将了解如何用算法的方式识别数据中的集群。最后,我们将深入探讨使用贝叶斯方法量化因果关系的高级技术,您将发现如何使用Python的工具进行监督机器学习。

你会学到什么

  • 将各种数据读入、排序并映射到Python和panda中
  • 识别模式,以便理解和研究数据
  • 使用统计模型来发现数据中的模式
  • 回顾使用Python、panda和SciPy的经典统计推断
  • 使用聚类检测数据中的相似性和差异性
  • 清理数据,使其有用
  • 在Jupyter笔记本生产出版准备工作数据纳入
成为VIP会员查看完整内容
0
61

掌握通过机器学习和深度学习识别和解决复杂问题的基本技能。使用真实世界的例子,利用流行的Python机器学习生态系统,这本书是你学习机器学习的艺术和科学成为一个成功的实践者的完美伴侣。本书中使用的概念、技术、工具、框架和方法将教会您如何成功地思考、设计、构建和执行机器学习系统和项目。

使用Python进行的实际机器学习遵循结构化和全面的三层方法,其中包含了实践示例和代码。

第1部分侧重于理解机器学习的概念和工具。这包括机器学习基础,对算法、技术、概念和应用程序的广泛概述,然后介绍整个Python机器学习生态系统。还包括有用的机器学习工具、库和框架的简要指南。

第2部分详细介绍了标准的机器学习流程,重点介绍了数据处理分析、特征工程和建模。您将学习如何处理、总结和可视化各种形式的数据。特性工程和选择方法将详细介绍真实数据集,然后是模型构建、调优、解释和部署。

第3部分探讨了多个真实世界的案例研究,涵盖了零售、交通、电影、音乐、营销、计算机视觉和金融等不同领域和行业。对于每个案例研究,您将学习各种机器学习技术和方法的应用。动手的例子将帮助您熟悉最先进的机器学习工具和技术,并了解什么算法最适合任何问题。

实用的机器学习与Python将授权您开始解决您自己的问题与机器学习今天!

你将学习:

  • 执行端到端机器学习项目和系统
  • 使用行业标准、开放源码、健壮的机器学习工具和框架实现实践示例
  • 回顾描述机器学习和深度学习在不同领域和行业中的应用的案例研究
  • 广泛应用机器学习模型,包括回归、分类和聚类。
  • 理解和应用深度学习的最新模式和方法,包括CNNs、RNNs、LSTMs和transfer learning。

这本书是给谁看的 IT专业人士、分析师、开发人员、数据科学家、工程师、研究生

目录:

Part I: Understanding Machine Learning

  • Chapter 1: Machine Learning Basics
  • Chapter 2: The Python Machine Learning Ecosystem Part II: The Machine Learning Pipeline
  • Chapter 3: Processing, Wrangling and Visualizing Data
  • Chapter 4: Feature Engineering and Selection
  • Chapter 5: Building, Tuning and Deploying Models Part III: Real-World Case Studies
  • Chapter 6: Analyzing Bike Sharing Trends
  • Chapter 7: Analyzing Movie Reviews Sentiment
  • Chapter 8: Customer Segmentation and Effective Cross Selling
  • Chapter 9: Analyzing Wine Types and Quality
  • Chapter 10: Analyzing Music Trends and Recommendations
  • Chapter 11: Forecasting Stock and Commodity Prices

Chapter 12: Deep Learning for Computer Vision

成为VIP会员查看完整内容
0
124

题目: Handbook of Mathematical Methods in Imaging

摘要: 该书全面介绍了成像科学中使用的数学技术。材料分为两个中心主题,即反问题(算法重建)和信号与图像处理。主题中的每个部分都涵盖了应用(建模)、数学、数值方法(使用一个实例)和开放性问题。由该领域的专家撰写的报告,在数学上是严谨的。条目是交叉引用的,以便在连接的主题中轻松导航。这本手册有印刷版和电子版两种形式,增加了150多幅插图和扩展书目。

成为VIP会员查看完整内容
0
25

在六个步骤中学习高级Python 3主题的基础知识,所有这些都是为了让您成为一个有价值的实践者而设计的。这个更新版本的方法基于“六度分离”理论,该理论指出每个人和每件事都是最多六步之遥,并将每个主题分为两部分: 理论概念和使用适当的Python 3包的实际实现。

您将从Python 3编程语言基础、机器学习历史、发展和系统开发框架开始。本文还介绍了一些关键的数据挖掘/分析概念,如探索性分析、特征降维、回归、时间序列预测及其在Scikit-learn中的有效实现。您还将学习常用的模型诊断和调优技术。其中包括最优的类创建概率截止点、方差、偏差、装袋、提升、集成投票、网格搜索、随机搜索、贝叶斯优化和物联网数据降噪技术。

最后,您将回顾先进的文本挖掘技术,推荐系统,神经网络,深度学习,强化学习技术及其实现。本书中提供的所有代码都将以iPython笔记本的形式提供,使您能够尝试这些示例并将其扩展到您的优势。

你将学习

  • 了解机器学习开发和框架
  • 评估模型诊断和机器学习中的调优
  • 检查文本挖掘、自然语言处理(NLP)和推荐系统
  • 复习强化学习和CNN

这本书是给谁看的

Python开发人员、数据工程师和机器学习工程师希望将他们的知识或职业扩展到机器学习领域。

成为VIP会员查看完整内容
0
150

主题: Mastering Machine Learning with Python in Six Steps

简介: 分六个步骤探索高级Python 3主题的基本原理,所有这些步骤都是为了让您成为一个有价值的实践者而设计的。这个更新版本的方法是基于“六度分离”理论,它指出每个人和所有事物都是最大的六步,并将每一个主题呈现为两个部分:理论概念和使用适当的Python 3包的实际实现。您将从Python3编程语言的基础知识、机器学习历史、演化和系统开发框架开始。本文还介绍了探索性分析、特征降维、回归、时间序列预测等关键数据挖掘/分析概念及其在Scikit学习中的有效实现。您还将学习常用的模型诊断和调优技术。其中包括类创建的最佳概率截止点、方差、偏差、bagging、boosting、集成投票、网格搜索、随机搜索、贝叶斯优化以及物联网数据的降噪技术。最后,您将回顾高级文本挖掘技术、推荐系统、神经网络、深度学习、强化学习技术及其实现。本书中提供的所有代码都将以iPython笔记本的形式提供,使您能够尝试这些示例并将它们扩展到您的优势。

作者简介: Swamynathan Manohar 是一名数据科学从业者和一名狂热的程序员,在数据仓库、商业智能(BI)、分析工具开发、即席分析、预测建模、数据科学产品开发、咨询等各种数据科学相关领域拥有超过14年的经验,制定策略并执行分析计划。

成为VIP会员查看完整内容
0
53

https://www.manning.com/books/mastering-large-datasets-with-python

现代数据科学解决方案需要简洁、易于阅读和可伸缩。在《用Python掌握大型数据集》一书中,作者J.T. Wolohan向您介绍了如何使用Python编码的功能影响方法来处理小型项目并对其进行扩展。您将探索有助于清晰性和可伸缩性的方法和内置Python工具,比如高性能并行方法,以及支持高数据吞吐量的分布式技术。本实用教程中丰富的实践练习将为任何大型数据科学项目锁定这些基本技能。

对这项技术

当应用于大量文件或分布式数据集时,在笔记本大小的数据上运行良好的编程技术可能会变慢,甚至完全失败。通过掌握强大的map和reduce范型,以及支持它的基于python的工具,您可以编写以数据为中心的应用程序,这些应用程序可以有效地扩展,而不需要在需求发生变化时重写代码库。

关于这本书

使用Python掌握大型数据集教会您编写可以处理任何大小的数据集的代码。您将从笔记本大小的数据集开始,这些数据集通过将大任务分解为可以同时运行的小任务来教会您并行化数据分析。然后将这些程序扩展到云服务器集群上的工业级数据集。有了map和reduce范型,您将探索像Hadoop和PySpark这样的工具来有效地处理大量的分布式数据集,使用机器学习加速决策制定,并使用AWS S3简化数据存储。

里面有什么

  • 对map和reduce范例的介绍

  • 并行化与多处理模块框架

  • 分布式计算的Hadoop和Spark

  • 运行AWS作业来处理大型数据集

成为VIP会员查看完整内容
0
140

简介:

探索用Python编写代码的正确方法。这本书提供的技巧和技术,你需要生产更干净,无错误,和雄辩的Python项目。

要获得更好的代码,首先要理解对代码进行格式化和编制文档以获得最大可读性的重要性,利用内置的数据结构和Python字典来提高可维护性,并使用模块和元类来有效地组织代码。然后,您将深入了解Python语言的新特性,并学习如何有效地利用它们。接下来,您将解码关键概念,如异步编程、Python数据类型、类型提示和路径处理。学习在Python代码中调试和执行单元测试和集成测试的技巧,以确保您的代码可以投入生产。学习旅程的最后一段为您提供了版本管理、实时代码管理和智能代码完成的基本工具。 在阅读和使用这本书之后,您将熟练地编写干净的Python代码,并成功地将这些原则应用到您自己的Python项目中。

目录:

  • Pythonic思维
  • 数据结构
  • 编写更好的函数和类
  • 使用模块和元类
  • 装饰器和上下文管理器
  • 生成器和迭代器
  • 利用新的Python特性
  • 附录:一些很棒的Python工具

作者:

Sunil Kapil在过去十年一直从事软件行业,用Python和其他几种语言编写产品代码。 他曾是一名软件工程师,主要从事网络和移动服务的后端工作。他开发、部署并维护了数百万用户喜爱和使用的从小型到大型的生产项目。他与世界各地知名软件公司的大小团队在不同的专业环境中完成了这些项目。他也是开源的热情倡导者,并不断为Zulip Chat和Black等项目贡献力量。Sunil经常在各种会议上发表关于Python的演讲。

成为VIP会员查看完整内容
1
107
小贴士
相关VIP内容
专知会员服务
87+阅读 · 2020年6月4日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
107+阅读 · 2020年1月1日
相关资讯
相关论文
Pasquale Minervini,Matko Bošnjak,Tim Rocktäschel,Sebastian Riedel,Edward Grefenstette
8+阅读 · 2019年12月17日
DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation
Yizhe Zhang,Siqi Sun,Michel Galley,Yen-Chun Chen,Chris Brockett,Xiang Gao,Jianfeng Gao,Jingjing Liu,Bill Dolan
5+阅读 · 2019年11月1日
Yanbin Liu,Juho Lee,Minseop Park,Saehoon Kim,Eunho Yang,Sungju Hwang,Yi Yang
18+阅读 · 2018年12月25日
Learning Embedding Adaptation for Few-Shot Learning
Han-Jia Ye,Hexiang Hu,De-Chuan Zhan,Fei Sha
8+阅读 · 2018年12月10日
Felix Hieber,Tobias Domhan,Michael Denkowski,David Vilar,Artem Sokolov,Ann Clifton,Matt Post
6+阅读 · 2018年6月1日
Myle Ott,Sergey Edunov,David Grangier,Michael Auli
3+阅读 · 2018年6月1日
Ziwei Zhang,Peng Cui,Haoyang Li,Xiao Wang,Wenwu Zhu
4+阅读 · 2018年5月7日
K M Annervaz,Somnath Basu Roy Chowdhury,Ambedkar Dukkipati
10+阅读 · 2018年2月16日
Wei He,Kai Liu,Yajuan Lyu,Shiqi Zhao,Xinyan Xiao,Yuan Liu,Yizhong Wang,Hua Wu,Qiaoqiao She,Xuan Liu,Tian Wu,Haifeng Wang
3+阅读 · 2017年11月15日
Top