本书基于易于理解且具有数据科学相关的丰富的库的Python语言环境,从零开始讲解数据科学工作。具体内容包括:Python速成,可视化数据,线性代数,统计,概率,假设与推断,梯度下降法,如何获取数据,k近邻法,朴素贝叶斯算法,等等。作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念,详细展示了什么是数据科学。

介绍数据科学基本知识的重量级读本,Google数据科学家作品。

数据科学是一个蓬勃发展、前途无限的行业,有人将数据科学家称为“21世纪头号性感职业”。本书从零开始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识——数学和统计学。

作者选择了功能强大、简单易学的Python语言环境,亲手搭建工具和实现算法,并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。

  • 简单介绍Python
  • 回顾一下线性几何、统计和概率知识,了解搞数据科学的时候怎么使用它们
  • 收集、探索、清理、转换和操作数据
  • 了解机器学习的基本知识
  • 实现K近邻、朴素贝叶斯、线性及逻辑回归、决策树、神经网络及聚类等模型
  • 探索推荐系统、自然语言处理、网络分析、MapReduce,还有数据库
成为VIP会员查看完整内容
0
24

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

通过使用Python开发用例,全面了解监督学习算法您将学习监督学习概念、Python代码、数据集、最佳实践、常见问题和缺陷的解决方案,以及实现结构化、文本和图像数据集算法的实践知识。

你将从介绍机器学习开始,强调监督学习、半监督学习和非监督学习之间的区别。在接下来的章节中,你将学习回归和分类问题,它们背后的数学,像线性回归、逻辑回归、决策树、KNN、朴素贝叶斯等算法,以及像随机森林、支持向量机、梯度增强和神经网络等高级算法。提供了所有算法的Python实现。最后,您将得到一个端到端模型开发流程,包括模型的部署和维护。在阅读了Python的监督学习之后,你将会对监督学习和它的实际实现有一个广泛的理解,并且能够以一种创新的方式运行代码和扩展它。

你将学习:

  • 回顾使用Python进行监督学习的基本构建块和概念
  • 为结构化数据以及文本和图像开发监督学习解决方案
  • 解决围绕过拟合、特征工程、数据清理和建立最佳拟合模型的交叉验证的问题
  • 理解从业务问题定义到模型部署和模型维护的端到端模型周期
  • 在使用Python创建监督学习模型时,避免常见的缺陷并遵循最佳实践

这本书是给谁的

  • 对监督学习的最佳实践和标准感兴趣,并使用分类算法和回归技术来开发预测模型的数据科学家或数据分析师。

https://www.apress.com/gp/book/9781484261552

成为VIP会员查看完整内容
0
20

Python中的数据科学和分析是为学术和商业环境中的数据科学和数据分析从业者设计的。其目的是通过使用Python开发的工具(如SciKit-learn、Pandas、Numpy等)向读者介绍数据科学中使用的主要概念。鉴于Python最近在数据科学社区的流行,它的使用特别有趣。有经验的程序员和新手都可以使用这本书。

本书的组织方式是各个章节相互独立,这样读者就可以放心地使用其中的内容作为参考。这本书从过程和获得的结果的角度讨论了什么是数据科学和分析。还介绍了Python的重要特性,包括Python入门。机器学习、模式识别和人工智能的基本元素在书的其余部分使用的算法和实现的基础上也出现在书的第一部分。

本书的第二部分介绍了使用Python、聚类技术和分类算法的回归分析。层次聚类、决策树和集成技术,以及降维技术和推荐系统也被探讨。书的最后一部分讨论了支持向量机算法和内核技巧。

成为VIP会员查看完整内容
0
22

如果您是用Python编程的新手,并且正在寻找可靠的介绍,那么这本书就是为您准备的。由计算机科学教师开发,在“为绝对初学者”系列丛书通过简单的游戏创造教授编程的原则。您将获得实际的Python编程应用程序所需的技能,并将了解如何在真实场景中使用这些技能。在整个章节中,你会发现一些代码示例来说明所提出的概念。在每一章的结尾,你会发现一个完整的游戏,展示了这一章的关键思想,一章的总结,以及一系列的挑战来测试你的新知识。当你读完这本书的时候,你将非常精通Python,并且能够将你所学到的基本编程原理应用到你要处理的下一种编程语言。

成为VIP会员查看完整内容
0
42

管理统计和数据科学的原理包括:数据可视化;描述性措施;概率;概率分布;数学期望;置信区间;和假设检验。方差分析;简单线性回归;多元线性回归也包括在内。另外,本书还提供了列联表、卡方检验、非参数方法和时间序列方法。

教材:

  • 包括通常在入门统计学课程中涵盖的学术材料,但与数据科学扭曲,较少强调理论
  • 依靠Minitab来展示如何用计算机执行任务
  • 展示并促进来自开放门户的数据的使用
  • 重点是发展对程序如何工作的直觉
  • 让读者了解大数据的潜力和目前使用它的失败之处
成为VIP会员查看完整内容
0
45

关于大数据技术的信息很多,但将这些技术拼接到端到端企业数据平台是一项艰巨的任务,没有得到广泛的讨论。通过这本实用的书,您将学习如何在本地和云中构建大数据基础设施,并成功地构建一个现代数据平台。

本书非常适合企业架构师、IT经理、应用程序架构师和数据工程师,它向您展示了如何克服Hadoop项目期间出现的许多挑战。在深入了解以下内容之前,您将在一个彻底的技术入门中探索Hadoop和大数据领域中可用的大量工具:

  • 基础设施: 查看现代数据平台中的所有组件层,从服务器到数据中心,为企业中的数据建立坚实的基础

-平台: 了解部署、操作、安全性、高可用性和灾难恢复的各个方面,以及将平台与企业IT的其他部分集成在一起所需了解的所有内容

  • 将Hadoop带到云端: 学习在云中运行大数据平台的重要架构方面,同时保持企业安全性和高可用性
成为VIP会员查看完整内容
0
74

本书涵盖了这些领域中使用Python模块演示的概率、统计和机器学习的关键思想。整本书包括所有的图形和数值结果,都可以使用Python代码及其相关的Jupyter/IPython Notebooks。作者通过使用多种分析方法和Python代码的有意义的示例,开发了机器学习中的关键直觉,从而将理论概念与具体实现联系起来。现代Python模块(如panda、y和Scikit-learn)用于模拟和可视化重要的机器学习概念,如偏差/方差权衡、交叉验证和正则化。许多抽象的数学思想,如概率论中的收敛性,都得到了发展,并用数值例子加以说明。本书适合任何具有概率、统计或机器学习的本科生,以及具有Python编程的基本知识的人。

成为VIP会员查看完整内容
0
81

数据科学库、框架、模块和工具包非常适合进行数据科学研究,但它们也是深入研究这一学科的好方法,不需要真正理解数据科学。在本书中,您将了解到许多最基本的数据科学工具和算法都是通过从头实现来实现的。

如果你有数学天赋和一些编程技能,作者Joel Grus将帮助你熟悉作为数据科学核心的数学和统计,以及作为数据科学家的入门技能。如今,这些杂乱的、充斥着海量数据的数据,为一些甚至没人想过要问的问题提供了答案。这本书为你提供了挖掘这些答案的诀窍。

参加Python速成班

  • 学习线性代数、统计和概率的基础知识,并了解如何以及何时在数据科学中使用它们
  • 收集、探索、清理、分析和操作数据
  • 深入了解机器学习的基本原理
  • 实现诸如k近邻、朴素贝叶斯、线性和逻辑回归、决策树、神经网络和聚类等模型
  • 探索推荐系统、自然语言处理、网络分析、MapReduce和数据库
成为VIP会员查看完整内容
0
53

简单易懂,读起来很有趣,介绍Python对于初学者和语言新手都是理想的。作者Bill Lubanovic带您从基础知识到更复杂和更多样的主题,混合教程和烹饪书风格的代码配方来解释Python 3中的概念。章节结尾的练习可以帮助你练习所学的内容。

您将获得该语言的坚实基础,包括测试、调试、代码重用和其他开发技巧的最佳实践。本书还向您展示了如何使用各种Python工具和开放源码包将Python用于商业、科学和艺术领域的应用程序。

  • 学习简单的数据类型,以及基本的数学和文本操作
  • 在Python的内置数据结构中使用数据协商技术
  • 探索Python代码结构,包括函数的使用
  • 用Python编写大型程序,包括模块和包
  • 深入研究对象、类和其他面向对象的特性
  • 检查从平面文件到关系数据库和NoSQL的存储
  • 使用Python构建web客户机、服务器、api和服务
  • 管理系统任务,如程序、进程和线程
  • 了解并发性和网络编程的基础知识

成为VIP会员查看完整内容
0
77

本书概述了现代数据科学重要的数学和数值基础。特别是,它涵盖了信号和图像处理(傅立叶、小波及其在去噪和压缩方面的应用)、成像科学(反问题、稀疏性、压缩感知)和机器学习(线性回归、逻辑分类、深度学习)的基础知识。重点是对方法学工具(特别是线性算子、非线性逼近、凸优化、最优传输)的数学上合理的阐述,以及如何将它们映射到高效的计算算法。

https://mathematical-tours.github.io/book/

它应该作为数据科学的数字导览的数学伴侣,它展示了Matlab/Python/Julia/R对这里所涵盖的所有概念的详细实现。

成为VIP会员查看完整内容
0
165

本书通过提供真实的案例研究和示例,为使用Python库进行机器学习提供了坚实的基础。它涵盖了诸如机器学习基础、Python入门、描述性分析和预测分析等主题。包括高级机器学习概念,如决策树学习、随机森林、增强、推荐系统和文本分析。这本书在理论理解和实际应用之间采取了一种平衡的方法。所有的主题都包括真实世界的例子,并提供如何探索、构建、评估和优化机器学习模型的逐步方法。

成为VIP会员查看完整内容
Machine Learning using Python by Manaranjan Pradhan.pdf
0
135
小贴士
相关VIP内容
专知会员服务
22+阅读 · 8月22日
专知会员服务
42+阅读 · 8月14日
专知会员服务
45+阅读 · 7月29日
专知会员服务
74+阅读 · 6月15日
专知会员服务
53+阅读 · 5月19日
专知会员服务
77+阅读 · 5月17日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
135+阅读 · 3月17日
相关资讯
机器学习必备的数学基础有哪些?
人工智能头条
5+阅读 · 2019年10月18日
【资源】机器学习数学全书,1900页PDF下载
全球人工智能
45+阅读 · 2019年10月17日
Python数据科学超强阵容书单
图灵教育
6+阅读 · 2018年3月26日
福利 | 当Python遇上大数据与机器学习,入门so easy!
入门人工智能该读哪些书?
InfoQ
3+阅读 · 2017年12月4日
机器学习实战:Python信用卡欺诈检测
引力空间站
3+阅读 · 2017年9月6日
Python 书单:从入门到……
Linux中国
8+阅读 · 2017年8月6日
相关论文
Uncertainty Aware Wildfire Management
Tina Diao,Samriddhi Singla,Ayan Mukhopadhyay,Ahmed Eldawy,Ross Shachter,Mykel Kochenderfer
0+阅读 · 10月15日
Bayesian Domain Randomization for Sim-to-Real Transfer
Fabio Muratore,Christian Eilers,Michael Gienger,Jan Peters
0+阅读 · 10月15日
Deep Learning Models for Predicting Wildfires from Historical Remote-Sensing Data
Fantine Huot,R. Lily Hu,Matthias Ihme,Qing Wang,John Burge,Tianjian Lu,Jason Hickey,Yi-Fan Chen,John Anderson
0+阅读 · 10月15日
Vibhatha Abeykoon,Niranda Perera,Chathura Widanage,Supun Kamburugamuve,Thejaka Amila Kanewala,Hasara Maithree,Pulasthi Wickramasinghe,Ahmet Uyar,Geoffrey Fox
0+阅读 · 10月13日
GraLSP: Graph Neural Networks with Local Structural Patterns
Yilun Jin,Guojie Song,Chuan Shi
3+阅读 · 2019年11月18日
Meta-Learning with Implicit Gradients
Aravind Rajeswaran,Chelsea Finn,Sham Kakade,Sergey Levine
7+阅读 · 2019年9月10日
Yu Cheng,Duo Wang,Pan Zhou,Tao Zhang
24+阅读 · 2019年9月8日
Knowledge Flow: Improve Upon Your Teachers
Iou-Jen Liu,Jian Peng,Alexander G. Schwing
3+阅读 · 2019年4月11日
Akash Srivastava,Charles Sutton
6+阅读 · 2018年4月21日
Top