为了提取知识和做出预测,机器学习使用数学模型来拟合数据。这些模型将特征作为输 入。特征就是原始数据某个方面的数值表示。在机器学习流程中,特征是数据和模型之间 的纽带。特征工程是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。它 是机器学习流程中一个极其关键的环节,因为正确的特征可以减轻构建模型的难度,从而 使机器学习流程输出更高质量的结果。机器学习从业者有一个共识,那就是建立机器学习 流程的绝大部分时间都耗费在特征工程和数据清洗上。然而,尽管特征工程非常重要,专 门讨论这个话题的著作却很少。究其原因,可能是正确的特征要视模型和数据的具体情况 而定,而模型和数据千差万别,很难从各种项目中归纳出特征工程的实践原则。

然而,特征工程并不只是针对具体项目的行为,它有一些基本原则,而且最好结合具体情 境进行解释说明。在本书中,每一章都集中阐述一个数据问题:如何表示文本数据或图像 数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。你可以 将本书看作内容互有联系的短篇小说集,而不是一部长篇小说。每一章都对大量现有特征 工程技术进行了简单介绍,它们综合在一起,阐明了特征工程的基本原则。

掌握一门学科不仅仅是要了解其中的定义以及能够推导公式。仅知道它的工作机制和用途 是不够的,你还必须理解它为什么这样设计,它与其他技术有何联系,以及每种方法的优 点和缺点。只有清楚地知道事情是如何完成的,对其中的基本原理有直观的理解,并能将 知识融会贯通,才称得上精通。尽管一本好书可以让你初窥门径,但只靠读书不能登堂入 室,你必须动手实践,将你的想法变成实际的应用,这是一个不断迭代的过程。在每次迭 代中,我们都能将想法理解得更加透彻,并逐渐找到更巧妙、更有创造性的实现方法。本书的目的就是帮助你更好地实现想法。

  • 第1章介 绍机器学习流程中的基本概念(数据、模型、特征等)。
  • 第 2 章研究数值型数据的基础特 征工程:过滤、分箱、缩放、对数变换和幂次变换,以及交互特征。
  • 第 3 章开始介绍自然 文本的特征工程,并研究词袋、n-gram 和短语检测等技术。
  • 第 4 章介绍 tf-idf(词频 - 逆 文档频率),并将其作为特征缩放的一个例子,说明特征缩放为什么会有效。
  • 从第 5 章开 始,节奏开始加快,我们要讨论高效的分类变量编码技术,包括特征散列化和分箱计数。
  • 第 6 章介绍主成分分析(PCA),此时我们已经深入到机器学习的腹地了。
  • 第 7 章将 k-均 值聚类作为一种特征化技术,说明了模型堆叠这一重要概念。

第 8 章专门讲解图像处理, 图像数据的特征提取要比文本数据困难得多。我们先介绍两种手动提取特征的技术:SIFT 和 HOG,然后再介绍深度学习这种最新的图像特征提取技术。

最后,第 9 章通过一个完 整的例子(为一个学术论文数据集创建推荐器)演示几种技术的实际应用。

成为VIP会员查看完整内容
《Feature Engineering for Machine Learning》英文PDF.pdf
《精通特征工程》中文PDF.pdf
347

相关内容

特征工程是使用领域知识通过数据挖掘技术从原始数据中提取特征的过程。这些功能可用于提高机器学习算法的性能。特征工程可以被认为是应用机器学习本身。
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
190+阅读 · 2020年6月29日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
85+阅读 · 2020年6月28日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
225+阅读 · 2020年5月2日
【经典书】数据结构与算法C++,第二版,738页pdf
专知会员服务
165+阅读 · 2020年3月27日
机器学习速查手册,135页pdf
专知会员服务
335+阅读 · 2020年3月15日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
140+阅读 · 2019年10月10日
机器学习必备的数学基础有哪些?
人工智能头条
12+阅读 · 2019年10月18日
博客 | 「特征工程」与「表示学习」
AI研习社
7+阅读 · 2018年9月9日
手把手教你用Python实现自动特征工程
量子位
12+阅读 · 2018年9月3日
推荐 :一文带你读懂特征工程
数据分析
16+阅读 · 2018年8月26日
已删除
将门创投
3+阅读 · 2018年4月10日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
已删除
将门创投
9+阅读 · 2017年7月28日
On Feature Normalization and Data Augmentation
Arxiv
14+阅读 · 2020年2月25日
Scale-Aware Trident Networks for Object Detection
Arxiv
4+阅读 · 2019年1月7日
A General and Adaptive Robust Loss Function
Arxiv
7+阅读 · 2018年11月5日
Arxiv
4+阅读 · 2018年3月19日
Arxiv
21+阅读 · 2018年2月14日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
190+阅读 · 2020年6月29日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
85+阅读 · 2020年6月28日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
225+阅读 · 2020年5月2日
【经典书】数据结构与算法C++,第二版,738页pdf
专知会员服务
165+阅读 · 2020年3月27日
机器学习速查手册,135页pdf
专知会员服务
335+阅读 · 2020年3月15日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
140+阅读 · 2019年10月10日
相关资讯
机器学习必备的数学基础有哪些?
人工智能头条
12+阅读 · 2019年10月18日
博客 | 「特征工程」与「表示学习」
AI研习社
7+阅读 · 2018年9月9日
手把手教你用Python实现自动特征工程
量子位
12+阅读 · 2018年9月3日
推荐 :一文带你读懂特征工程
数据分析
16+阅读 · 2018年8月26日
已删除
将门创投
3+阅读 · 2018年4月10日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
已删除
将门创投
9+阅读 · 2017年7月28日
微信扫码咨询专知VIP会员