从事数据科学方面的工作时,活用各种相关函式库、软体框架、模组、工具包是很好的做法,但如果原本完全不懂数据科学,从头开始也是一种不错的做法。本书将采取土法炼钢从头学起的方式,带领读者认识与数据科学相关的许多工具与演算法。

你只要具备基本的数学能力,以及程式设计的基础,本书就可以帮你在遇到相关的数学与统计知识时,不至于感到害怕,而且还能让你学会一个数据科学家所需具备的相关骇客技术。如今到处充斥着各种杂乱的数据资料,其中包含许多问题的解答,但也有很多微妙之处,甚至连问题本身都还没被提出来过。如果你真心想要挖掘问题的解答,本书将可以提供你一些相关的知识。

首先来一堂Python速成班 学习线性代数、统计、机率的基础知识——并学会何时、如何在数据科学领域中灵活运用这些知识 搜集、探索、清理、转换、处理各种数据资料

深入理解机器学习的基础 灵活运用像是k最近邻、单纯贝氏、线性与逻辑回归、决策树、神经网路、集群等种种模型

探讨推荐系统、自然语言处理、网路分析、MapReduce与数据库的相关知识

名人推荐 「Joel带领我们领略探索数据科学,让我们从一般的好奇心,进入到更深入的理解,并学会所有资料科学家都应该知道的各种实用演算法。」 ——Rohit Sivaprasad, Soylent公司数据科学家

【Table of Contents】目录/大纲/内容概要

第1章简介

第2章Python速成班

第3章数据视觉化

第4章线性代数

第5章统计学

第6章机率

第7章假设与推论

第8章梯度递减

第9章取得数据资料

第10章处理数据资料

第11章机器学习

第12章k最近邻

第13章单纯贝氏

第14章简单线性回归

第15章多元回归

第16章逻辑回归

第17章决策树

第18章神经网路

第19章集群

第20章自然语言处理

第21章网路分析

第22章推荐系统

第23章资料库与SQL

第24章MapReduce

第25章勇往直前,数据科学做就对了

成为VIP会员查看完整内容
0
29

相关内容

由沃德(Brian Ward)着,姜南、袁志鹏译的《精通Linux(第2版)》讲解了Linux操作系统的工作机制以及运行Linux系统所需的常用工具和命令。根据系统启动的大体顺序,本书更深入地介绍从设备管理到网络配置的各个部分,最后演示了系统各部分的运行方式,并介绍了一些基本技巧和开发人员常用的工具。

Linux不像其他操作,会对用户隐藏很多重要的东西。相反,Linux会让用户掌控一切。而要掌控一切,就必须理解这个操作系统的工作机制,包括如何启动、如何连网,以及Linux内核如何工作。本书是畅销书的新版本,作者拥有多年的实践经验,内容通俗易懂。通过这本书,读者可以迅速从Linux新手变成老鸟,把作者丰富的经验装进自己的知识库。

<章节目录>

第1章概述 第2章基础命令和目录结构 第3章设备管理 第4章硬盘和文件系统 第5章Linux内核的启动 第6章用户空间的启动 第7章系统配置:日志、系统时间、批处理任务和用户 第8章进程与资源利用详解 第9章网络与配置 第10章网络应用与服务 第11章shell脚本 第12章在网络上传输文件 第13章用户环境 第14章Linux桌面概览 第15章开发工具 第16章从C代码编译出软件 第17章在基础上搭建

成为VIP会员查看完整内容
0
27

《Python机器学习经典实例(影印版 英文版)》这本实用指南提供了近200则完整的攻略,可帮助你解决日常工作中可能遇到的机器学习难题。如果你熟悉Python以及包括pandas和scikit-learn在内的库,那么解决一些特定问题将不在话下,比如数据加载、文本处理、数值数据、模型选择、降维以及诸多其他主题。

  每则攻略中都包含代码,你可以将其复制并粘贴到实验数据集中,以确保代码的确有效。你可以插入、组合、修改这些代码,从而协助构建你自己的应用程序。攻略中还包括相关的讨论,对解决方案给出了解释并提供有意义的上下文。

  《Python机器学习经典实例(影印版 英文版)》在理论和概念之外提供了构造实用机器学习应用所需的具体细节。

https://www.oreilly.com/library/view/machine-learning-with/9781491989371/

成为VIP会员查看完整内容
0
55

本书基于易于理解且具有数据科学相关的丰富的库的Python语言环境,从零开始讲解数据科学工作。具体内容包括:Python速成,可视化数据,线性代数,统计,概率,假设与推断,梯度下降法,如何获取数据,k近邻法,朴素贝叶斯算法,等等。作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念,详细展示了什么是数据科学。

介绍数据科学基本知识的重量级读本,Google数据科学家作品。

数据科学是一个蓬勃发展、前途无限的行业,有人将数据科学家称为“21世纪头号性感职业”。本书从零开始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识——数学和统计学。

作者选择了功能强大、简单易学的Python语言环境,亲手搭建工具和实现算法,并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。

  • 简单介绍Python
  • 回顾一下线性几何、统计和概率知识,了解搞数据科学的时候怎么使用它们
  • 收集、探索、清理、转换和操作数据
  • 了解机器学习的基本知识
  • 实现K近邻、朴素贝叶斯、线性及逻辑回归、决策树、神经网络及聚类等模型
  • 探索推荐系统、自然语言处理、网络分析、MapReduce,还有数据库
成为VIP会员查看完整内容
0
37

有兴趣的数据科学专业人士可以通过本书学习Scikit-Learn图书馆以及机器学习的基本知识。本书结合了Anaconda Python发行版和流行的Scikit-Learn库,演示了广泛的有监督和无监督机器学习算法。通过用Python编写的清晰示例,您可以在家里自己的机器上试用和试验机器学习的原理。

所有的应用数学和编程技能需要掌握的内容,在这本书中涵盖。不需要深入的面向对象编程知识,因为工作和完整的例子被提供和解释。必要时,编码示例是深入和复杂的。它们也简洁、准确、完整,补充了介绍的机器学习概念。使用示例有助于建立必要的技能,以理解和应用复杂的机器学习算法。

对于那些在机器学习方面追求职业生涯的人来说,Scikit-Learn机器学习应用手册是一个很好的起点。学习这本书的学生将学习基本知识,这是胜任工作的先决条件。读者将接触到专门为数据科学专业人员设计的蟒蛇分布,并将在流行的Scikit-Learn库中构建技能,该库是Python世界中许多机器学习应用程序的基础。

你将学习

  • 使用Scikit-Learn中常见的简单和复杂数据集
  • 将数据操作为向量和矩阵,以进行算法处理
  • 熟悉数据科学中使用的蟒蛇分布
  • 应用带有分类器、回归器和降维的机器学习
  • 优化算法并为每个数据集找到最佳算法
  • 从CSV、JSON、Numpy和panda格式加载数据并保存为这些格式

这本书是给谁的

  • 有抱负的数据科学家渴望通过掌握底层的基础知识进入机器学习领域,而这些基础知识有时在急于提高生产力的过程中被忽略了。一些面向对象编程的知识和非常基本的线性代数应用将使学习更容易,尽管任何人都可以从这本书获益。
成为VIP会员查看完整内容
0
112

本书介绍了数据科学的数学和算法基础,包括机器学习、高维几何和大型网络的分析。主题包括高维数据的反直觉性质、重要的线性代数技术,如奇异值分解、随机游动和马尔科夫链理论、机器学习的基本原理和重要算法、聚类算法和分析、大型网络的概率模型、表示学习,包括主题建模和非负矩阵分解、小波和压缩感知。本文提出了一种正概率技术,包括大数定律、尾部不等式、随机投影分析、机器学习中的泛化保证以及分析大随机图相变的矩量法。此外,还讨论了重要的结构和复杂性度量,如矩阵范数和vc维。本书适用于设计和分析数据算法的本科和研究生课程。

成为VIP会员查看完整内容
0
64

数据科学库、框架、模块和工具包非常适合进行数据科学研究,但它们也是深入研究这一学科的好方法,不需要真正理解数据科学。在本书中,您将了解到许多最基本的数据科学工具和算法都是通过从头实现来实现的。

如果你有数学天赋和一些编程技能,作者Joel Grus将帮助你熟悉作为数据科学核心的数学和统计,以及作为数据科学家的入门技能。如今,这些杂乱的、充斥着海量数据的数据,为一些甚至没人想过要问的问题提供了答案。这本书为你提供了挖掘这些答案的诀窍。

参加Python速成班

  • 学习线性代数、统计和概率的基础知识,并了解如何以及何时在数据科学中使用它们
  • 收集、探索、清理、分析和操作数据
  • 深入了解机器学习的基本原理
  • 实现诸如k近邻、朴素贝叶斯、线性和逻辑回归、决策树、神经网络和聚类等模型
  • 探索推荐系统、自然语言处理、网络分析、MapReduce和数据库
成为VIP会员查看完整内容
0
66

这本书在对算法工作原理的高层次理解和对优化模型的具体细节的了解之间找到一个平衡点。这本书将给你的信心和技能时,开发所有主要的机器学习模型。在这本Pro机器学习算法中,您将首先在Excel中开发算法,以便在用Python/R实现模型之前,实际了解可以在模型中调优的所有细节。

你将涵盖所有主要的算法:监督和非监督学习,其中包括线性/逻辑回归;k - means聚类;主成分分析;推荐系统;决策树;随机森林;“GBM”;和神经网络。您还将通过CNNs、RNNs和word2vec等文本挖掘工具了解最新的深度学习。你不仅要学习算法,还要学习特征工程的概念来最大化模型的性能。您将看到该理论与案例研究,如情绪分类,欺诈检测,推荐系统,和图像识别,以便您得到最佳的理论和实践为工业中使用的绝大多数机器学习算法。在学习算法的同时,您还将接触到在所有主要云服务提供商上运行的机器学习模型。

你会学到什么?

  • 深入了解所有主要的机器学习和深度学习算法
  • 充分理解在构建模型时要避免的陷阱
  • 在云中实现机器学习算法
  • 通过对每种算法的案例研究,采用动手实践的方法
  • 学习集成学习的技巧,建立更精确的模型
  • 了解R/Python编程的基础知识和Keras深度学习框架

这本书是给谁看的

希望转换到数据科学角色的业务分析师/ IT专业人员。想要巩固机器学习知识的数据科学家。

成为VIP会员查看完整内容
0
103

主题: Python Data Science Cookbook

简介: 这本书包含了简单而简洁的Python代码示例,以有效地演示实际中的高级概念,使用Python探索编程、数据挖掘、数据分析、数据可视化和机器学习等概念,借助简单易懂、有见地的方法,快速掌握机器学习算法。

成为VIP会员查看完整内容
0
84

简介:

科学专业人员可以通过本书学习Scikit-Learn库以及机器学习的基础知识。该书将Anaconda Python发行版与流行的Scikit-Learn库结合在一起,展示了各种有监督和无监督的机器学习算法。通过Python编写的清晰示例向读者介绍机器学习的原理,以及相关代码。

本书涵盖了掌握这些内容所需的所有应用数学和编程技能。不需要深入的面向对象编程知识,因为可以提供并说明完整的示例。必要时,编码示例很深入且很复杂。它们也简洁,准确,完整,是对引入的机器学习概念的补充。处理示例有助于建立理解和应用复杂机器学习算法所需的技能。

本书的学生将学习作为胜任力前提的基础知识。读者将了解专门为数据科学专业人员设计的Python Anaconda发行版,并将在流行的Scikit-Learn库中构建技能,该库是Python领域许多机器学习应用程序的基础。

本书内容包括:

  • 使用Scikit-Learn通用的简单和复杂数据集
  • 将数据处理为向量和矩阵以进行算法处理
  • 熟悉数据科学中使用的Anaconda发行版
  • 通过分类器,回归器和降维应用机器学习
  • 调整算法并为每个数据集找到最佳算法
  • 从CSV,JSON,Numpy和Pandas格式加载数据并保存

内容介绍:

这本书分为八章。 第1章介绍了机器学习,Anaconda和Scikit-Learn的主题。 第2章和第3章介绍算法分类。 第2章对简单数据集进行分类,第3章对复杂数据集进行分类。 第4章介绍了回归预测模型。 第5章和第6章介绍分类调整。 第5章调整简单数据集,第6章调整复杂数据集。 第7章介绍了预测模型回归调整。 第8章将所有知识汇总在一起,以整体方式审查和提出发现。

作者介绍:

David Paper博士是犹他州立大学管理信息系统系的教授。他写了两本书-商业网络编程:Oracle的PHP面向对象编程和Python和MongoDB的数据科学基础。他在诸如组织研究方法,ACM通讯,信息与管理,信息资源管理期刊,AIS通讯,信息技术案例与应用研究期刊以及远程计划等参考期刊上发表了70余篇论文。他还曾在多个编辑委员会担任过各种职务,包括副编辑。Paper博士还曾在德州仪器(TI),DLS,Inc.和凤凰城小型企业管理局工作。他曾为IBM,AT&T,Octel,犹他州交通运输部和空间动力实验室执行过IS咨询工作。 Paper博士的教学和研究兴趣包括数据科学,机器学习,面向对象的程序设计和变更管理。

目录:

成为VIP会员查看完整内容
0
59

简介: 使用Python和Dask进行数据科学教育,您可以构建可处理大量数据集的可扩展项目。 学习Dask框架后,您将分析NYC Parking Ticket数据库中的数据,并使用Data Frames简化流程。 然后,您将使用Dask-ML创建机器学习模型,构建交互式可视化效果,并使用AWS和Docker构建集群。

作者介绍: Jesse Daniel是一位经验丰富的Python开发人员。 他在丹佛大学教授课程:数据科学的Python,并领导一家位于丹佛的媒体技术公司的数据科学家团队。

简介:

  • part1 可伸缩计算的构建基块
    • 为什么可扩展计算很重要
    • 介绍DASK
  • part2 使用dask data frames处理结构化数据
    • dask data frames介绍
    • 将数据加载到dataframes中
    • 清理和转换dataframe
    • 总结和分析数据框架
    • 使用Seaborn可视化数据
    • 使用datashader可视化位置数据
  • part3 扩展和部署dask
    • 处理阵列
    • 使用dask-ML进行机器学习
    • 扩展和部署Dask
成为VIP会员查看完整内容
0
33
小贴士
相关主题
相关VIP内容
专知会员服务
27+阅读 · 2月19日
专知会员服务
55+阅读 · 1月2日
专知会员服务
37+阅读 · 2020年9月20日
专知会员服务
112+阅读 · 2020年6月10日
专知会员服务
66+阅读 · 2020年5月19日
专知会员服务
103+阅读 · 2020年2月11日
【电子书推荐】Data Science with Python and Dask
专知会员服务
33+阅读 · 2019年6月1日
相关资讯
经典教材《统计学习导论》Python版
专知
11+阅读 · 2020年10月19日
《机器学习实战》代码(基于Python3)
专知
24+阅读 · 2019年10月14日
Python 神经网络编程
人工智能头条
3+阅读 · 2019年2月27日
下载 | 超全机器学习思维导图
机器学习算法与Python学习
18+阅读 · 2019年1月17日
近期Python好书一览
图灵教育
6+阅读 · 2018年7月25日
这几本Python新书特别赞
图灵教育
5+阅读 · 2018年3月1日
Python 书单:从入门到……
Linux中国
10+阅读 · 2017年8月6日
相关论文
Derek G. Murray,Jiri Simsa,Ana Klimovic,Ihor Indyk
0+阅读 · 2月23日
Sergey Goncharov
0+阅读 · 2月23日
Bo-Jian Hou,Yu-Hu Yan,Peng Zhao,Zhi-Hua Zhou
0+阅读 · 2月23日
Simin Liu,Tianrui Liu,Ali Vakilian,Yulin Wan,David P. Woodruff
0+阅读 · 2月23日
Suzan Ece Ada,Emre Ugur,H. Levent Akin
0+阅读 · 2月22日
Jeremy Avigad
0+阅读 · 2月22日
Alexander Jung
9+阅读 · 2018年8月19日
Efficient and Effective $L_0$ Feature Selection
Ana Kenney,Francesca Chiaromonte,Giovanni Felici
5+阅读 · 2018年8月7日
Feature Selection Library (MATLAB Toolbox)
Giorgio Roffo
3+阅读 · 2018年8月6日
Alireza Ghasemi,Hamid R. Rabiee,Mohsen Fadaee,Mohammad T. Manzuri,Mohammad H. Rohban
3+阅读 · 2016年2月24日
Top