如何系统地学习数据挖掘?

虽然是本科毕业,但是在看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看svm的数学证明,EM算法..,感觉知识跳跃比较大, 是我…
关注者
11,547
被浏览
1,821,360
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

本书介绍

这本书是由Anand Rajaraman和Jeff Ullman在斯坦福大学为相关的课程开发的材料演变而来的。课程名为“网络挖掘(Web Mining)”,是作为一门高级研究生课程设计的,尽管它对高级本科生来说已经变得容易理解和有趣。当Jure Leskovec加入斯坦福大学时,我们对材料进行了相当大的改动。他介绍了一门关于网络分析的新课程CS224W,并为重新编号为CS246的CS345A添加了材料。这三位作者还介绍了一门大型数据挖掘项目课程,CS341。这本书现在包含了所有三门课程的内容。


本书最新免费pdf下载地址: 20年经典教材-《海量数据挖掘技术》免费pdf分享


这本书主要讲什么:

从最高层来讲,本书主要讲解数据挖掘。然而,它侧重于对非常大量的数据进行数据挖掘,也就是说,数据太大而不适合主内存。由于强调大小,我们的许多例子都是关于网络或从网络导出的数据。此外,这本书从算法的角度来看:数据挖掘是关于将算法应用于数据,而不是使用数据来“训练”某种机器学习引擎。


涵盖的主要主题有:

1 .分布式文件系统和map-reduce作为创建并行算法的工具,可在大量数据上获得成功。

2.相似性搜索,包括minhashing和locality敏感哈希的关键技术。

3.数据流处理和处理数据的专门算法,数据到达得太快,必须立即处理或丢失。

4.搜索引擎的技术,包括谷歌的网页排名、垃圾链接检测以及中心和权威方法。

5.频繁项集挖掘,包括关联规则、购物篮、先验算法及其改进。

6.用于聚集非常大的高维数据集的算法。

7.网络应用的两个关键问题:管理广告和推荐系统。

8.用于分析和挖掘非常大的图,尤其是社交网络图的结构的算法。

9.通过降维获得大数据集重要属性的技术,包括奇异值分解和潜在语义索引。

10.机器学习算法,可以应用于非常大的数据,如感知器,支持向量机,梯度下降。


本书目录


内容截图

本书免费pdf下载地址: 20年经典教材-《海量数据挖掘技术》免费pdf分享


往期精品内容推荐

4天打进AI大赛决赛圈,我是如何做到的?

蒂宾根大学-《机器学习导论2021》课程视频及ppt免费分享

UC Berkeley-2019-《深度学习与应用自然语言处理》实战课程分享

计算机视觉(CV)历史最全预训练模型(部署)汇集分享

深度学习架构论文解读10-胶囊之间的动态路由

中文版-《可解释的机器学习-黑盒模型可解释性理解指南》pdf免费分享

CMU新课-《深度学习技术入门 2020春》视频及ppt分享