【经典书】精通机器学习特征工程,中文版,178页pdf

2020 年 2 月 15 日 专知
【经典书】精通机器学习特征工程,中文版,178页pdf

地址:

https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/


为了提取知识和做出预测,机器学习使用数学模型来拟合数据。这些模型将特征作为输 入。特征就是原始数据某个方面的数值表示。在机器学习流程中,特征是数据和模型之间 的纽带。特征工程是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。它 是机器学习流程中一个极其关键的环节,因为正确的特征可以减轻构建模型的难度,从而 使机器学习流程输出更高质量的结果。机器学习从业者有一个共识,那就是建立机器学习 流程的绝大部分时间都耗费在特征工程和数据清洗上。然而,尽管特征工程非常重要,专 门讨论这个话题的著作却很少。究其原因,可能是正确的特征要视模型和数据的具体情况 而定,而模型和数据千差万别,很难从各种项目中归纳出特征工程的实践原则。


然而,特征工程并不只是针对具体项目的行为,它有一些基本原则,而且最好结合具体情 境进行解释说明。在本书中,每一章都集中阐述一个数据问题:如何表示文本数据或图像 数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。你可以 将本书看作内容互有联系的短篇小说集,而不是一部长篇小说。每一章都对大量现有特征 工程技术进行了简单介绍,它们综合在一起,阐明了特征工程的基本原则。 


掌握一门学科不仅仅是要了解其中的定义以及能够推导公式。仅知道它的工作机制和用途 是不够的,你还必须理解它为什么这样设计,它与其他技术有何联系,以及每种方法的优 点和缺点。只有清楚地知道事情是如何完成的,对其中的基本原理有直观的理解,并能将 知识融会贯通,才称得上精通。尽管一本好书可以让你初窥门径,但只靠读书不能登堂入 室,你必须动手实践,将你的想法变成实际的应用,这是一个不断迭代的过程。在每次迭 代中,我们都能将想法理解得更加透彻,并逐渐找到更巧妙、更有创造性的实现方法。本书的目的就是帮助你更好地实现想法。


  • 第1章介 绍机器学习流程中的基本概念(数据、模型、特征等)

  • 第 2 章研究数值型数据的基础特 征工程:过滤、分箱、缩放、对数变换和幂次变换,以及交互特征。

  • 第 3 章开始介绍自然 文本的特征工程,并研究词袋、n-gram 和短语检测等技术。

  • 第 4 章介绍 tf-idf(词频 - 逆 文档频率),并将其作为特征缩放的一个例子,说明特征缩放为什么会有效。

  • 从第 5 章开 始,节奏开始加快,我们要讨论高效的分类变量编码技术,包括特征散列化和分箱计数。

  • 第 6 章介绍主成分分析(PCA),此时我们已经深入到机器学习的腹地了。

  • 第 7 章将 k-均 值聚类作为一种特征化技术,说明了模型堆叠这一重要概念。

  • 第 8 章专门讲解图像处理, 图像数据的特征提取要比文本数据困难得多。我们先介绍两种手动提取特征的技术:SIFT 和 HOG,然后再介绍深度学习这种最新的图像特征提取技术。

  • 最后,第 9 章通过一个完 整的例子(为一个学术论文数据集创建推荐器)演示几种技术的实际应用。



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“特征工程” 就可以获取精通机器学习特征工程中文版,178页pdf》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
48

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

通过这个紧凑的实用指南,开始使用Python进行数据分析。这本书包括三个练习和一个用正确的格式从Python代码中获取数据的案例研究。使用Python学习数据分析还可以帮助您使用分析发现数据中的意义,并展示如何可视化数据。

每一节课都尽可能是独立的,允许您根据需要插入和退出示例。如果您已经在使用Python进行数据分析,那么您会发现您希望知道如何使用Python来完成许多事情。然后,您可以将这些技术直接应用到您自己的项目中。

如果您不使用Python进行数据分析,那么本书从一开始就带您了解基础知识,为您在该主题中打下坚实的基础。当你阅读完这本书的时候,你会对如何使用Python进行数据分析有更好的理解。

你将学到什么

  • 从Python代码中获取数据
  • 准备数据及其格式
  • 找出数据的意义
  • 使用iPython可视化数据

这本书是给谁的

想学习使用Python进行数据分析的同学。建议您具有Python方面的经验,但不是必需的,因为您需要具有数据分析或数据科学方面的经验。

成为VIP会员查看完整内容
0
83

高斯过程(GPs)为核机器的学习提供了一种有原则的、实用的、概率的方法。在过去的十年中,GPs在机器学习社区中得到了越来越多的关注,这本书提供了GPs在机器学习中理论和实践方面长期需要的系统和统一的处理。该书是全面和独立的,针对研究人员和学生在机器学习和应用统计学。

这本书处理监督学习问题的回归和分类,并包括详细的算法。提出了各种协方差(核)函数,并讨论了它们的性质。从贝叶斯和经典的角度讨论了模型选择。讨论了许多与其他著名技术的联系,包括支持向量机、神经网络、正则化网络、相关向量机等。讨论了包括学习曲线和PAC-Bayesian框架在内的理论问题,并讨论了几种用于大数据集学习的近似方法。这本书包含说明性的例子和练习,和代码和数据集在网上是可得到的。附录提供了数学背景和高斯马尔可夫过程的讨论。

成为VIP会员查看完整内容
0
81

本备忘单是机器学习手册的浓缩版,包含了许多关于机器学习的经典方程和图表,旨在帮助您快速回忆起机器学习中的知识和思想。

这个备忘单有两个显著的优点:

  1. 清晰的符号。数学公式使用了许多令人困惑的符号。例如,X可以是一个集合,一个随机变量,或者一个矩阵。这是非常混乱的,使读者很难理解数学公式的意义。本备忘单试图规范符号的使用,所有符号都有明确的预先定义,请参见小节。

  2. 更少的思维跳跃。在许多机器学习的书籍中,作者省略了数学证明过程中的一些中间步骤,这可能会节省一些空间,但是会给读者理解这个公式带来困难,读者会在中间迷失。

成为VIP会员查看完整内容
0
133

简介: 特征工程在机器学习、数据挖掘和数据分析中起着关键作用。本文提供了特征工程的一般定义,以及该领域的主要问题、方法和挑战的概述。特征工程在大数据分析中起着关键作用。没有数据,机器学习和数据挖掘算法就无法工作。如果没有表示基础数据对象的功能,大数据分析则几乎不能实现,并且这些算法的结果质量在很大程度上取决于可用特征的质量。数据通常以各种形式存在,如图像、文本、图形、序列和时间序列。表示数据对象的常见方法是使用特征矢量。即使由特征向量表示的数据可能仍然需要新的有效特征。特征工程涉及满足生成和选择基于特征向量的有效数据表示的需求。

本书目录:

  • 1.预览概述
  • 2 文本数据特征工程 
  • 3 视觉数据特征提取学习
  • 4 基于特征的时序分析
  • 5 数据特征流工程
  • 6 序列特征生成与特征工程
  • 7 图与网络特征生成
  • 8 特征选择与评估
  • 9 监督学习中的自动特征工程
  • 10 基于模式的特征生成
  • 11 深度学习特征表示
  • 12 用于社交机器人检测的特征工程
  • 13 用于软件分析的特征生成与工程
  • 14 Twitter应用特征工程

下载链接: 链接:https://pan.baidu.com/s/1rshWh8-ST_Mtkw525mz-yQ

提取码:4abr

成为VIP会员查看完整内容
0
70

由于特征工程通常是特定于数据类型且依赖于应用程序的,本书包含专门介绍主要数据类型的特征工程的章节,如文本数据、图像数据、序列数据、时间序列数据、图形数据、流数据、软件工程数据、Twitter 数据和社交媒体数据。这些章节介绍了生成经过反复测试、手工制作的特定于域的功能以及自动通用功能生成方法(如 Word2Vec)的方法。

本书目录:

  1. 预览概述
  2. 文本数据特征工程 
  3. 视觉数据特征提取学习
  4. 基于特征的时序分析
  5. 数据特征流工程
  6. 序列特征生成与特征工程
  7. 图与网络特征生成
  8. 特征选择与评估
  9. 监督学习中的自动特征工程
  10. 基于模式的特征生成
  11. 深度学习特征表示
  12. 用于社交机器人检测的特征工程
  13. 用于软件分析的特征生成与工程
  14. Twitter应用特征工程

本书还包含有关特征选择、基于特征转换的自动方法、使用深度学习方法生成功能以及使用频繁和对比度模式生成特征的章节。有几章是关于在特定应用中使用特征工程的。

本书包含许多有用的特征工程概念和技术,这些概念和技术适用于多种方案:(a) 生成功能以表示没有要素时的数据,(b) 在(人们可能担心)存在时生成有效特征功能不够好/竞争力不够,(c) 在功能过多时选择功能,(d) 为特定类型的应用程序生成和选择有效功能,以及 (e) 了解与相关挑战以及需要处理的方法,各种数据类型。

成为VIP会员查看完整内容
0
68
小贴士
相关资讯
机器学习必备的数学基础有哪些?
人工智能头条
6+阅读 · 2019年10月18日
博客 | 「特征工程」与「表示学习」
AI研习社
5+阅读 · 2018年9月9日
手把手教你用Python实现自动特征工程
量子位
6+阅读 · 2018年9月3日
推荐 :一文带你读懂特征工程
数据分析
12+阅读 · 2018年8月26日
独家 | 一文带你读懂特征工程!
数据派THU
6+阅读 · 2018年8月23日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
超级干货 :一文读懂特征工程
数据分析
7+阅读 · 2017年9月6日
相关VIP内容
专知会员服务
83+阅读 · 2020年6月29日
专知会员服务
51+阅读 · 2020年6月28日
专知会员服务
30+阅读 · 2020年6月26日
专知会员服务
88+阅读 · 2020年5月14日
专知会员服务
81+阅读 · 2020年5月2日
专知会员服务
86+阅读 · 2020年3月27日
机器学习速查手册,135页pdf
专知会员服务
133+阅读 · 2020年3月15日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
68+阅读 · 2019年10月10日
相关论文
Zixin Luo,Lei Zhou,Xuyang Bai,Hongkai Chen,Jiahui Zhang,Yao Yao,Shiwei Li,Tian Fang,Long Quan
3+阅读 · 2020年3月23日
On Feature Normalization and Data Augmentation
Boyi Li,Felix Wu,Ser-Nam Lim,Serge Belongie,Kilian Q. Weinberger
10+阅读 · 2020年2月25日
Ashutosh Adhikari,Achyudh Ram,Raphael Tang,Jimmy Lin
3+阅读 · 2019年8月22日
Scale-Aware Trident Networks for Object Detection
Yanghao Li,Yuntao Chen,Naiyan Wang,Zhaoxiang Zhang
4+阅读 · 2019年1月7日
Peng Zhou,Xintong Han,Vlad I. Morariu,Larry S. Davis
7+阅读 · 2018年5月13日
Qing Li,Qingyi Tao,Shafiq Joty,Jianfei Cai,Jiebo Luo
14+阅读 · 2018年3月20日
Jiayuan Gu,Han Hu,Liwei Wang,Yichen Wei,Jifeng Dai
4+阅读 · 2018年3月19日
Quanshi Zhang,Ying Nian Wu,Song-Chun Zhu
14+阅读 · 2018年2月14日
John E. Vargas-Muñoz,Ananda S. Chowdhury,Eduardo B. Alexandre,Felipe L. Galvão,Paulo A. Vechiatto Miranda,Alexandre X. Falcão
9+阅读 · 2018年1月30日
Top