关于数据挖掘,有几本书推荐给你......

2017 年 10 月 11 日 图灵教育

在数据规模急速膨胀的大数据时代,数据挖掘这项甄别重要数据的核心技术正发挥越来越重要的作用。

你还不懂数据挖掘(data mining)?

1. 维基百科对数据挖掘的定义:

数据挖掘是一个跨学科的计算机科学分支,它是用人工智能、机器学习、统计学和数据库的交叉方法,在相对较大型的数据集中发现模式的计算过程。

2. 数据挖掘的实际工作:

数据挖掘的实际工作是对大规模数据进行自动或半自动的分析,以提取过去未知的有价值的潜在信息。

数据挖掘将赋予你解决实际问题的“超能力”:预测体育赛事结果、精确投放广告、根据作品的风格解决作者归属问题,等等。

那,怎样学习数据挖掘?

说到学习,当然少不了理论结合实践,今天就为大家推荐几本数据挖掘方面的好书:

  1. 《数据挖掘与分析:概念与算法》【NEW】

      多所著名高校采用的数据挖掘入门课成书

  2. 《数据挖掘导论(完整版)》【HOT】

      数据挖掘领域经典

  3. 《大数据:互联网大规模数据挖掘与分布式处理(第2版)》【HOT】

      斯坦福大学海量数据挖掘成书

  4. 《Python数据挖掘入门与实践》

      简单易学的Python数据挖掘入门书


这些书为什么出彩?请看下面对这些书的详细介绍:


数据挖掘与分析:概念与算法


Mohammed J. Zaki , Wagner Meira Jr. 著

吴诚堃 译

本书源自美国伦斯勒理工学院(RPI)和巴西米纳斯吉拉斯联邦大学(UFMG)数据挖掘课程讲义。

自1998年起,RPI 每年秋季都会开设数据挖掘课程,UFMG 自2002年起也开设了这门课程。尽管有不少关于数据挖掘及相关话题的好书,但总感觉大多数书的层次或难度太高。

而这本书是一本专注于数据挖掘与分析的基本算法的入门书,通过解释所有初次碰到的关键概念,为学习数据挖掘的核心方法打下数学基础,并试图通过直观地阐述各种公式以辅助理解。

  • 融合机器学习、统计学等相关学科知识,涵盖频繁模式挖掘、聚类、分类等经典算法

  • 兼顾前沿话题,提供算法对应的开源实现方法

  • 配备丰富教辅资源,包括课程幻灯片、教学视频、数据集等

本书中涉及的所有算法作者都实现了一遍。建议读者使用自己喜欢的数据分析和挖掘软件来尝试书中给出的例子,并实现书中所描述的算法;我们推荐使用R或者Python的NumPy包。书中涉及的所有数据集及其他参考材料,如课程项目构思以及课堂讲义等,都可以在以下网址找到:

http://dataminingbook.info/pmwiki.php

理解了数据挖掘和数据分析的基本原理和算法之后,读者将完全有能力开发自己的方法或者使用更高级的技术。

建议阅读路线

本书各章之间的依赖关系如图0-1 所示。

下面给出阅读本书或在课程中使用本书的几种典型路线图。

  1. 对于初步了解数据挖掘的人,建议阅读第1»3 章、第8 章、第10 章、第12»15 章、第17»19 章,以及第21»22 章。

  2. 对于不想了解探索性数据分析的人,建议阅读第1 章、第8»15 章、第17»19 章及第21»22 章。

  3. 对于想深入理解数据挖掘的人,可以快速把第一部分过一遍,或将其当作背景知识阅读,然后直接阅读第9»22 章;

  4. 本书的其他部分,即频繁模式挖掘(第二部分)、聚类(第三部分)和分类(第四部分),可以按任意顺序讲授。

  5. 对于想要了解数据分析的人,必须阅读第1»7 章、第13»14 章、第15 章的第2 节,以及第20 章。

  6. 最后,对于想要了解图和核的内容,建议阅读第4»5 章、第7 章(第1»3 节)、第11»12 章、第13 章(第1»2节)、第16»17 章和第20»22 章。

目录

第1章 数据挖掘与分析

第一部分 数据分析基础

第2章 数值属性

第3章 类别型属性

第4章 图数据

第5章 核方法

第6章 高维数据

第7章 降维

第二部分 频繁模式挖掘

第8章 项集挖掘

第9章 项集概述

第10章 序列挖掘

第11章 图模式挖掘

第12章 模式与规则评估

第三部分 聚类

第13章 基于代表的聚类

第14章 层次式聚类

第15章 基于密度的聚类

第16章 谱聚类和图聚类

第17章 聚类的验证

第四部分 分类

第18章 基于概率的分类 

第19章 决策树分类器

第20章 线性判别分析

第21章 支持向量机

第22章 分类的评估



数据挖掘导论



Pang-Ning Tan,Michael Steinbach,Vipin Kumar 著

范明 范宏建等 译

  • 豆瓣评分8.3分,数据挖掘领域经典作品

  • 全面介绍数据挖掘的理论和方法

  • 提供读者将数据挖掘应用于实际问题所必需的知识

与许多其他同类图书不同,本书将重点放在如何用数据挖掘知识解决各种实际问题。只要求具备很少的预备知识——不需要数据库背景,只需要很少的统计学或数学背景知识。

书中包含大量的图表、综合示例和丰富的习题,并且使用示例、关键算法的简洁描述和习题,尽可能直接地聚焦于数据挖掘的主要概念。

教辅内容极为丰富,包括课程幻灯片、学生课题建议、数据挖掘资源(如数据挖掘算法和数据集)、联机指南(使用实际的数据集和数据分析软件,为本书介绍的部分数据挖掘技术提供例子讲解)。


数据挖掘与分布式处理



Jure Leskovec,Anand Rajaraman,Jeffrey David Ullman 著

王斌 译

  • 畅销书全新升级,新增影响与同质性、社交媒体推荐和行为分析等超实用内容

  • 涵盖解决数据挖掘核心问题所用算法,及实际应用数据挖掘所需知识,理论与实现并重

  • 斯坦福大学数据挖掘方向专家Jure Leskovec、Anand Rajaraman、Jeffrey David Ullman重磅力作

主要内容包括: 

  • 分布式文件系统以及MapReduce工具 

  • 相似性搜索

  • 数据流处理以及针对易丢失数据等特殊情况的专用处理算法

  • 搜索引擎技术,如谷歌的PageRank

  • 频繁项集挖掘 

  • 大规模高维数据集的聚类算法

  • Web应用中的关键问题——广告管理和推荐系统 

  • 社会网络图挖掘

  • 降维处理,如SVD分解和CUR分解

  • 大规模机器学习

本书配套网站提供了英文版初稿及相关资料的链接:http://www.mmds.org/。



Python数据挖掘:入门与实践



Robert Layton 著

杜春晓 译

  • 全面释放Python的数据分析能力

  • 掌握大数据时代核心技术,轻松入门数据挖掘技术并将其应用于实际项目 

本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言,由浅入深,以真实数据作为研究对象,真刀实枪地向读者介绍Python数据挖掘的实现方法。本书核心内容:

  • 理解决策树、朴素贝叶斯、支持向量机和深度学习

  • 运用常见算法为解决现实问题建立数据模型 

  • 利用API从Reddit等网站获取数据集 

  • 从数据集中找出并提取特征 

  • 使用数据集设计并开发数据挖掘应用 

  • 基于实时数据,进行大数据处理 



 赠书活动 

说说你挖掘过的数据有多大?你如何制服杂乱数据小妖精。或者,以上图书,你对哪一本最感兴趣,为什么。精选评论中挑3人赠书,截至10月13日14:00。



 


我不相信造化弄人

世界上出类拔萃的人都主动找寻他们想要的环境

要是遍寻不获

他们就创造一个

——萧伯纳



点击“阅读原文”,到京东购买《数据挖掘与分析:概念与算法》


登录查看更多
15

相关内容

数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程。
【经典书】人工智能及机器学习导论,457页pdf
专知会员服务
157+阅读 · 2020年7月5日
【经典书】统计学习导论,434页pdf,斯坦福大学
专知会员服务
228+阅读 · 2020年4月29日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
330+阅读 · 2020年3月17日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
78+阅读 · 2020年3月4日
【经典书】Python计算机视觉编程,中文版,363页pdf
专知会员服务
136+阅读 · 2020年2月16日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
347+阅读 · 2020年2月15日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
199+阅读 · 2020年2月7日
干货 | NLP 书单推荐!
翻译技术沙龙
11+阅读 · 2017年12月21日
书单 | NLP秘笈,从入门到进阶
机器学习研究会
3+阅读 · 2017年12月20日
推荐 | 10.24......送你9大深度学习在线课程,你没理由不看!(附链接......)
Arxiv
7+阅读 · 2018年8月28日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
相关VIP内容
【经典书】人工智能及机器学习导论,457页pdf
专知会员服务
157+阅读 · 2020年7月5日
【经典书】统计学习导论,434页pdf,斯坦福大学
专知会员服务
228+阅读 · 2020年4月29日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
330+阅读 · 2020年3月17日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
78+阅读 · 2020年3月4日
【经典书】Python计算机视觉编程,中文版,363页pdf
专知会员服务
136+阅读 · 2020年2月16日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
347+阅读 · 2020年2月15日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
199+阅读 · 2020年2月7日
相关资讯
Top
微信扫码咨询专知VIP会员