关于数据挖掘,有几本书推荐给你......

2017 年 10 月 11 日 图灵教育
关于数据挖掘,有几本书推荐给你......

在数据规模急速膨胀的大数据时代,数据挖掘这项甄别重要数据的核心技术正发挥越来越重要的作用。

你还不懂数据挖掘(data mining)?

1. 维基百科对数据挖掘的定义:

数据挖掘是一个跨学科的计算机科学分支,它是用人工智能、机器学习、统计学和数据库的交叉方法,在相对较大型的数据集中发现模式的计算过程。

2. 数据挖掘的实际工作:

数据挖掘的实际工作是对大规模数据进行自动或半自动的分析,以提取过去未知的有价值的潜在信息。

数据挖掘将赋予你解决实际问题的“超能力”:预测体育赛事结果、精确投放广告、根据作品的风格解决作者归属问题,等等。

那,怎样学习数据挖掘?

说到学习,当然少不了理论结合实践,今天就为大家推荐几本数据挖掘方面的好书:

  1. 《数据挖掘与分析:概念与算法》【NEW】

      多所著名高校采用的数据挖掘入门课成书

  2. 《数据挖掘导论(完整版)》【HOT】

      数据挖掘领域经典

  3. 《大数据:互联网大规模数据挖掘与分布式处理(第2版)》【HOT】

      斯坦福大学海量数据挖掘成书

  4. 《Python数据挖掘入门与实践》

      简单易学的Python数据挖掘入门书


这些书为什么出彩?请看下面对这些书的详细介绍:


数据挖掘与分析:概念与算法


Mohammed J. Zaki , Wagner Meira Jr. 著

吴诚堃 译

本书源自美国伦斯勒理工学院(RPI)和巴西米纳斯吉拉斯联邦大学(UFMG)数据挖掘课程讲义。

自1998年起,RPI 每年秋季都会开设数据挖掘课程,UFMG 自2002年起也开设了这门课程。尽管有不少关于数据挖掘及相关话题的好书,但总感觉大多数书的层次或难度太高。

而这本书是一本专注于数据挖掘与分析的基本算法的入门书,通过解释所有初次碰到的关键概念,为学习数据挖掘的核心方法打下数学基础,并试图通过直观地阐述各种公式以辅助理解。

  • 融合机器学习、统计学等相关学科知识,涵盖频繁模式挖掘、聚类、分类等经典算法

  • 兼顾前沿话题,提供算法对应的开源实现方法

  • 配备丰富教辅资源,包括课程幻灯片、教学视频、数据集等

本书中涉及的所有算法作者都实现了一遍。建议读者使用自己喜欢的数据分析和挖掘软件来尝试书中给出的例子,并实现书中所描述的算法;我们推荐使用R或者Python的NumPy包。书中涉及的所有数据集及其他参考材料,如课程项目构思以及课堂讲义等,都可以在以下网址找到:

http://dataminingbook.info/pmwiki.php

理解了数据挖掘和数据分析的基本原理和算法之后,读者将完全有能力开发自己的方法或者使用更高级的技术。

建议阅读路线

本书各章之间的依赖关系如图0-1 所示。

下面给出阅读本书或在课程中使用本书的几种典型路线图。

  1. 对于初步了解数据挖掘的人,建议阅读第1»3 章、第8 章、第10 章、第12»15 章、第17»19 章,以及第21»22 章。

  2. 对于不想了解探索性数据分析的人,建议阅读第1 章、第8»15 章、第17»19 章及第21»22 章。

  3. 对于想深入理解数据挖掘的人,可以快速把第一部分过一遍,或将其当作背景知识阅读,然后直接阅读第9»22 章;

  4. 本书的其他部分,即频繁模式挖掘(第二部分)、聚类(第三部分)和分类(第四部分),可以按任意顺序讲授。

  5. 对于想要了解数据分析的人,必须阅读第1»7 章、第13»14 章、第15 章的第2 节,以及第20 章。

  6. 最后,对于想要了解图和核的内容,建议阅读第4»5 章、第7 章(第1»3 节)、第11»12 章、第13 章(第1»2节)、第16»17 章和第20»22 章。

目录

第1章 数据挖掘与分析

第一部分 数据分析基础

第2章 数值属性

第3章 类别型属性

第4章 图数据

第5章 核方法

第6章 高维数据

第7章 降维

第二部分 频繁模式挖掘

第8章 项集挖掘

第9章 项集概述

第10章 序列挖掘

第11章 图模式挖掘

第12章 模式与规则评估

第三部分 聚类

第13章 基于代表的聚类

第14章 层次式聚类

第15章 基于密度的聚类

第16章 谱聚类和图聚类

第17章 聚类的验证

第四部分 分类

第18章 基于概率的分类 

第19章 决策树分类器

第20章 线性判别分析

第21章 支持向量机

第22章 分类的评估



数据挖掘导论



Pang-Ning Tan,Michael Steinbach,Vipin Kumar 著

范明 范宏建等 译

  • 豆瓣评分8.3分,数据挖掘领域经典作品

  • 全面介绍数据挖掘的理论和方法

  • 提供读者将数据挖掘应用于实际问题所必需的知识

与许多其他同类图书不同,本书将重点放在如何用数据挖掘知识解决各种实际问题。只要求具备很少的预备知识——不需要数据库背景,只需要很少的统计学或数学背景知识。

书中包含大量的图表、综合示例和丰富的习题,并且使用示例、关键算法的简洁描述和习题,尽可能直接地聚焦于数据挖掘的主要概念。

教辅内容极为丰富,包括课程幻灯片、学生课题建议、数据挖掘资源(如数据挖掘算法和数据集)、联机指南(使用实际的数据集和数据分析软件,为本书介绍的部分数据挖掘技术提供例子讲解)。


数据挖掘与分布式处理



Jure Leskovec,Anand Rajaraman,Jeffrey David Ullman 著

王斌 译

  • 畅销书全新升级,新增影响与同质性、社交媒体推荐和行为分析等超实用内容

  • 涵盖解决数据挖掘核心问题所用算法,及实际应用数据挖掘所需知识,理论与实现并重

  • 斯坦福大学数据挖掘方向专家Jure Leskovec、Anand Rajaraman、Jeffrey David Ullman重磅力作

主要内容包括: 

  • 分布式文件系统以及MapReduce工具 

  • 相似性搜索

  • 数据流处理以及针对易丢失数据等特殊情况的专用处理算法

  • 搜索引擎技术,如谷歌的PageRank

  • 频繁项集挖掘 

  • 大规模高维数据集的聚类算法

  • Web应用中的关键问题——广告管理和推荐系统 

  • 社会网络图挖掘

  • 降维处理,如SVD分解和CUR分解

  • 大规模机器学习

本书配套网站提供了英文版初稿及相关资料的链接:http://www.mmds.org/。



Python数据挖掘:入门与实践



Robert Layton 著

杜春晓 译

  • 全面释放Python的数据分析能力

  • 掌握大数据时代核心技术,轻松入门数据挖掘技术并将其应用于实际项目 

本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言,由浅入深,以真实数据作为研究对象,真刀实枪地向读者介绍Python数据挖掘的实现方法。本书核心内容:

  • 理解决策树、朴素贝叶斯、支持向量机和深度学习

  • 运用常见算法为解决现实问题建立数据模型 

  • 利用API从Reddit等网站获取数据集 

  • 从数据集中找出并提取特征 

  • 使用数据集设计并开发数据挖掘应用 

  • 基于实时数据,进行大数据处理 



 赠书活动 

说说你挖掘过的数据有多大?你如何制服杂乱数据小妖精。或者,以上图书,你对哪一本最感兴趣,为什么。精选评论中挑3人赠书,截至10月13日14:00。



 


我不相信造化弄人

世界上出类拔萃的人都主动找寻他们想要的环境

要是遍寻不获

他们就创造一个

——萧伯纳



点击“阅读原文”,到京东购买《数据挖掘与分析:概念与算法》


登录查看更多
5

相关内容

数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程。

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
93

Python算法,第二版解释了Python方法的算法分析和设计。本书由《初级Python》的作者Magnus Lie Hetland撰写,主要关注经典算法,但也对基本的算法解决问题技术有了深入的理解。

这本书涉及一些最重要和最具挑战性的领域的编程和计算机科学在一个高度可读的方式。它涵盖了算法理论和编程实践,演示了理论是如何反映在真实的Python程序中的。介绍了Python语言中内置的著名算法和数据结构,并向用户展示了如何实现和评估其他算法和数据结构

成为VIP会员查看完整内容
0
109

本书通过提供真实的案例研究和示例,为使用Python库进行机器学习提供了坚实的基础。它涵盖了诸如机器学习基础、Python入门、描述性分析和预测分析等主题。包括高级机器学习概念,如决策树学习、随机森林、增强、推荐系统和文本分析。这本书在理论理解和实际应用之间采取了一种平衡的方法。所有的主题都包括真实世界的例子,并提供如何探索、构建、评估和优化机器学习模型的逐步方法。

成为VIP会员查看完整内容
Machine Learning using Python by Manaranjan Pradhan.pdf
0
185

题目

【教程推荐】中科大刘淇教授-数据挖掘基础

关键字

数据挖掘,统计学习,机器学习

简介

数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。知识发现过程由以下三个阶段组成:①数据准备;②数据挖掘;③结果表达和解释。数据挖掘可以与用户或知识库交互。

作者

刘 淇

成为VIP会员查看完整内容
0
38

【导读】计算机视觉是一门对图像中信息进行自动提取的学科。信息的内容相当广泛,包括三维模型、照相机位置、目标检测与识别,以及图像内容的分组与搜索等。本书中,我们使用广义的计算机视觉概念,包括图像扭曲、降噪和增强现实等。计算机视觉有时试图模拟人类视觉,有时使用数据和统计方法,而有时几何是解决问题的关键。如果你想对计算机视觉的基本理论和算法有一个基本的了解,这个动手的介绍是理想的起点。您将学习对象识别、3D重建、立体成像、增强现实和其他计算机视觉应用程序的技术,并学习用Python编写的示例。

前言

今天,图像和视频无处不在,在线照片分享网站和社交网络上的图像有数十亿之多。几乎对于任意可能的查询图像,搜索引擎都会给用户返回检索的图像。实际上,几乎所有手机和计算机都有内置的摄像头,所以在人们的设备中,有几 G 的图像和视频是一件很寻常的事。

计算机视觉就是用计算机编程,并设计算法来理解在这些图像中有什么。计算机视觉的有力应用有图像搜索、机器人导航、医学图像分析、照片管理等。

本书旨在为计算机视觉实战提供一个简单的切入点,让学生、研究者和爱好者充分理解其基础理论和算法。本书中的编程语言是 Python,Python 自带了很多可以免费获取的强大而便捷的图像处理、数学计算和数据挖掘模块,可以免费获取。

写作本书的时候,我遵循了以下原则。

  • 鼓励探究式学习,让读者在阅读本书的时候,在计算机上跟着书中示例进行练习。

  • 推广和使用免费且开源的软件,设立较低的学习门槛。显然,我们选择了 Python。

  • 保持内容完整性和独立性。本书没有介绍计算机视觉的全部内容,而是完整呈现并解释所有代码。你应该能够重现这些示例,并可以直接在它们之上构建其他应用。

  • 内容追求广泛而非详细,且相对于理论更注重鼓舞和激励。

总之,如果你对计算机视觉编程感兴趣,希望它能给你带来启发。

各章概览

  • 第 1 章“基本的图像操作和处理”介绍用来处理图像的基本工具及本书用到的核心 Python 模块,同时涵盖了很多贯穿全书的基础示例。

  • 第 2 章“局部图像描述子”讲解检测图像兴趣点的方法,以及怎样使用它们在图像间寻找相应点和区域。

  • 第 3 章“图像到图像的映射”描述图像间基本的变换及其计算方法。涵盖从图像扭曲到创建全景图像的示例。

  • 第 4 章“照相机模型与增强现实”介绍如何对照相机建模、生成从三维空间到图像特征的图像投影,并估计照相机视点。

  • 第 5 章“多视图几何”讲解如何对具有相同场景、多视图几何基本面的图像进行处理,以及怎样从图像计算三维重建。

  • 第 6 章“图像聚类”介绍一些聚类方法,并展示如何基于相似性或内容对图像进行分组和组织。

  • 第 7 章“图像搜索”展示如何建立有效的图像检索技术,以便能够存储图像的表示,并基于图像的视觉内容搜索图像。

  • 第 8 章“图像内容分类”描述了图像内容分类算法,以及怎样使用它们识别图像中的物体。

  • 第 9 章“图像分割”介绍了通过聚类、用户交互或图像模型,将图像分割成有意义区域的不同技术。

  • 第 10 章“OpenCV”展示怎样使用常用的 OpenCV 计算机视觉库 Python 接口,以及如何处理视频及摄像头的输入。

成为VIP会员查看完整内容
0
87

为了提取知识和做出预测,机器学习使用数学模型来拟合数据。这些模型将特征作为输 入。特征就是原始数据某个方面的数值表示。在机器学习流程中,特征是数据和模型之间 的纽带。特征工程是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。它 是机器学习流程中一个极其关键的环节,因为正确的特征可以减轻构建模型的难度,从而 使机器学习流程输出更高质量的结果。机器学习从业者有一个共识,那就是建立机器学习 流程的绝大部分时间都耗费在特征工程和数据清洗上。然而,尽管特征工程非常重要,专 门讨论这个话题的著作却很少。究其原因,可能是正确的特征要视模型和数据的具体情况 而定,而模型和数据千差万别,很难从各种项目中归纳出特征工程的实践原则。

然而,特征工程并不只是针对具体项目的行为,它有一些基本原则,而且最好结合具体情 境进行解释说明。在本书中,每一章都集中阐述一个数据问题:如何表示文本数据或图像 数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。你可以 将本书看作内容互有联系的短篇小说集,而不是一部长篇小说。每一章都对大量现有特征 工程技术进行了简单介绍,它们综合在一起,阐明了特征工程的基本原则。

掌握一门学科不仅仅是要了解其中的定义以及能够推导公式。仅知道它的工作机制和用途 是不够的,你还必须理解它为什么这样设计,它与其他技术有何联系,以及每种方法的优 点和缺点。只有清楚地知道事情是如何完成的,对其中的基本原理有直观的理解,并能将 知识融会贯通,才称得上精通。尽管一本好书可以让你初窥门径,但只靠读书不能登堂入 室,你必须动手实践,将你的想法变成实际的应用,这是一个不断迭代的过程。在每次迭 代中,我们都能将想法理解得更加透彻,并逐渐找到更巧妙、更有创造性的实现方法。本书的目的就是帮助你更好地实现想法。

  • 第1章介 绍机器学习流程中的基本概念(数据、模型、特征等)。
  • 第 2 章研究数值型数据的基础特 征工程:过滤、分箱、缩放、对数变换和幂次变换,以及交互特征。
  • 第 3 章开始介绍自然 文本的特征工程,并研究词袋、n-gram 和短语检测等技术。
  • 第 4 章介绍 tf-idf(词频 - 逆 文档频率),并将其作为特征缩放的一个例子,说明特征缩放为什么会有效。
  • 从第 5 章开 始,节奏开始加快,我们要讨论高效的分类变量编码技术,包括特征散列化和分箱计数。
  • 第 6 章介绍主成分分析(PCA),此时我们已经深入到机器学习的腹地了。
  • 第 7 章将 k-均 值聚类作为一种特征化技术,说明了模型堆叠这一重要概念。

第 8 章专门讲解图像处理, 图像数据的特征提取要比文本数据困难得多。我们先介绍两种手动提取特征的技术:SIFT 和 HOG,然后再介绍深度学习这种最新的图像特征提取技术。

最后,第 9 章通过一个完 整的例子(为一个学术论文数据集创建推荐器)演示几种技术的实际应用。

成为VIP会员查看完整内容
《Feature Engineering for Machine Learning》英文PDF.pdf
《精通特征工程》中文PDF.pdf
0
223
小贴士
相关资讯
相关VIP内容
专知会员服务
99+阅读 · 2020年7月5日
专知会员服务
97+阅读 · 2020年4月29日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
185+阅读 · 2020年3月17日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
38+阅读 · 2020年3月4日
【经典书】Python计算机视觉编程,中文版,363页pdf
专知会员服务
87+阅读 · 2020年2月16日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
223+阅读 · 2020年2月15日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
174+阅读 · 2020年2月7日
相关论文
Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements
Kai Shu,Suhang Wang,Dongwon Lee,Huan Liu
7+阅读 · 2020年1月2日
vGraph: A Generative Model for Joint Community Detection and Node Representation Learning
Fan-Yun Sun,Meng Qu,Jordan Hoffmann,Chin-Wei Huang,Jian Tang
11+阅读 · 2019年9月17日
Ivana Balazevic,Carl Allen,Timothy M. Hospedales
5+阅读 · 2018年8月28日
Localization Recall Precision (LRP): A New Performance Metric for Object Detection
Kemal Oksuz,Baris Can Cam,Emre Akbas,Sinan Kalkan
3+阅读 · 2018年7月4日
Guangneng Hu,Yu Zhang,Qiang Yang
7+阅读 · 2018年4月20日
Tiziano Piccardi,Michele Catasta,Leila Zia,Robert West
5+阅读 · 2018年4月17日
Yuhong Li,Xiaofan Zhang,Deming Chen
3+阅读 · 2018年3月9日
Mohammad Hossain Namaki,F A Rezaur Rahman Chowdhury,Md Rakibul Islam,Janardhan Rao Doppa,Yinghui Wu
6+阅读 · 2018年1月21日
Zhanzhan Cheng,Xuyang Liu,Fan Bai,Yi Niu,Shiliang Pu,Shuigeng Zhou
3+阅读 · 2017年11月12日
Top