由O'Reilly Media,Inc.出版的《Feature Engineering for Machine Learning》(国内译作《精通特征工程》)一书,可以说是特征工程的宝典,本文在知名开源apachecn组织翻译的英文版基础上,将原文修改成jupyter notebook格式,并增加和修改了部分代码,测试全部通过。这个资料可以说是特征工程的宝典,值得推荐。

特征工程是机器学习流程中至关重要的一个环节,然而专门讨论这个话题的著作却很少。本书旨在填补这一空白,着重阐明特征工程的基本原则,介绍大量特征工程技术,教你从原始数据中提取出正确的特征并将其转换为适合机器学习模型的格式,从而轻松构建模型,增强机器学习算法的效果。

然而,本书并非单纯地讲述特征工程的基本原则,而是通过大量示例和练习将重点放在了实际应用上。每一章都集中研究一个数据问题:如何表示文本数据或图像数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。最后一章通过一个完整的例子演示了多种特征工程技术的实际应用。书中所有代码示例均是用Python编写的,涉及NumPy、Pandas、scikit-learn和Matplotlib等程序包。

  • 数值型数据的特征工程:过滤、分箱、缩放、对数变换和指数变换
  • 自然文本技术:词袋、n元词与短语检测
  • 基于频率的过滤和特征缩放
  • 分类变量编码技术:特征散列化与分箱计数
  • 使用主成分分析的基于模型的特征工程
  • 模型堆叠与k-均值特征化
  • 图像特征提取:人工提取与深度学习
成为VIP会员查看完整内容
0
38

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

学习使用Python分析数据和预测结果的更简单和更有效的方法

Python机器学习教程展示了通过关注两个核心机器学习算法家族来成功分析数据,本书能够提供工作机制的完整描述,以及使用特定的、可破解的代码来说明机制的示例。算法用简单的术语解释,没有复杂的数学,并使用Python应用,指导算法选择,数据准备,并在实践中使用训练过的模型。您将学习一套核心的Python编程技术,各种构建预测模型的方法,以及如何测量每个模型的性能,以确保使用正确的模型。关于线性回归和集成方法的章节深入研究了每种算法,你可以使用书中的示例代码来开发你自己的数据分析解决方案。

机器学习算法是数据分析和可视化的核心。在过去,这些方法需要深厚的数学和统计学背景,通常需要结合专门的R编程语言。这本书演示了机器学习可以如何实现使用更广泛的使用和可访问的Python编程语言。

使用线性和集成算法族预测结果

建立可以解决一系列简单和复杂问题的预测模型

使用Python应用核心机器学习算法

直接使用示例代码构建自定义解决方案

机器学习不需要复杂和高度专业化。Python使用了更简单、有效和经过良好测试的方法,使这项技术更容易为更广泛的受众所接受。Python中的机器学习将向您展示如何做到这一点,而不需要广泛的数学或统计背景。

成为VIP会员查看完整内容
0
24

这本教科书通过提供实用的建议,使用直接的例子,并提供相关应用的引人入胜的讨论,以一种容易理解的方式介绍了基本的机器学习概念。主要的主题包括贝叶斯分类器,最近邻分类器,线性和多项式分类器,决策树,神经网络,和支持向量机。后面的章节展示了如何通过“推进”的方式结合这些简单的工具,如何在更复杂的领域中利用它们,以及如何处理各种高级的实际问题。有一章专门介绍流行的遗传算法。

这个修订的版本包含关于工业中机器学习的实用应用的关键主题的三个全新的章节。这些章节研究了多标签域,无监督学习和它在深度学习中的使用,以及归纳逻辑编程的逻辑方法。许多章节已经被扩展,并且材料的呈现已经被增强。这本书包含了许多新的练习,许多解决的例子,深入的实验,和独立工作的计算机作业。

https://link.springer.com/book/10.1007/978-3-319-63913-0#about

成为VIP会员查看完整内容
0
108

机器学习已经成为许多商业应用和研究项目中不可或缺的一部分,但这一领域并不仅限于拥有广泛研究团队的大公司。如果您使用Python,即使是初学者,这本书也会教你构建自己的机器学习解决方案的实用方法。今天,有了所有可用的数据,机器学习应用程序只受限于你的想象力。

您将学习使用Python和scikit-learn库创建成功的机器学习应用程序所需的步骤。两位作者安德烈亚斯•穆勒(Andreas Muller)和萨拉•圭多(Sarah Guido)关注的是使用机器学习算法的实践层面,而不是背后的数学。熟悉NumPy和matplotlib库将有助于您从本书获得更多信息。

通过这本书,你会学到 :

  • 机器学习的基本概念和应用
  • 广泛应用的机器学习算法的优缺点
  • 如何表示机器学习处理过的数据,包括关注哪些数据方面
  • 先进的模型评估和参数调整方法
  • 用于链接模型和封装工作流的管道概念
  • 处理文本数据的方法,包括特定于文本的处理技术
  • 提高机器学习和数据科学技能的建议
成为VIP会员查看完整内容
0
78

本书涵盖了这些领域中使用Python模块演示的概率、统计和机器学习的关键思想。整本书包括所有的图形和数值结果,都可以使用Python代码及其相关的Jupyter/IPython Notebooks。作者通过使用多种分析方法和Python代码的有意义的示例,开发了机器学习中的关键直觉,从而将理论概念与具体实现联系起来。现代Python模块(如panda、y和Scikit-learn)用于模拟和可视化重要的机器学习概念,如偏差/方差权衡、交叉验证和正则化。许多抽象的数学思想,如概率论中的收敛性,都得到了发展,并用数值例子加以说明。本书适合任何具有概率、统计或机器学习的本科生,以及具有Python编程的基本知识的人。

成为VIP会员查看完整内容
0
103

为了提取知识和做出预测,机器学习使用数学模型来拟合数据。这些模型将特征作为输 入。特征就是原始数据某个方面的数值表示。在机器学习流程中,特征是数据和模型之间 的纽带。特征工程是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。它 是机器学习流程中一个极其关键的环节,因为正确的特征可以减轻构建模型的难度,从而 使机器学习流程输出更高质量的结果。机器学习从业者有一个共识,那就是建立机器学习 流程的绝大部分时间都耗费在特征工程和数据清洗上。然而,尽管特征工程非常重要,专 门讨论这个话题的著作却很少。究其原因,可能是正确的特征要视模型和数据的具体情况 而定,而模型和数据千差万别,很难从各种项目中归纳出特征工程的实践原则。

然而,特征工程并不只是针对具体项目的行为,它有一些基本原则,而且最好结合具体情 境进行解释说明。在本书中,每一章都集中阐述一个数据问题:如何表示文本数据或图像 数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。你可以 将本书看作内容互有联系的短篇小说集,而不是一部长篇小说。每一章都对大量现有特征 工程技术进行了简单介绍,它们综合在一起,阐明了特征工程的基本原则。

掌握一门学科不仅仅是要了解其中的定义以及能够推导公式。仅知道它的工作机制和用途 是不够的,你还必须理解它为什么这样设计,它与其他技术有何联系,以及每种方法的优 点和缺点。只有清楚地知道事情是如何完成的,对其中的基本原理有直观的理解,并能将 知识融会贯通,才称得上精通。尽管一本好书可以让你初窥门径,但只靠读书不能登堂入 室,你必须动手实践,将你的想法变成实际的应用,这是一个不断迭代的过程。在每次迭 代中,我们都能将想法理解得更加透彻,并逐渐找到更巧妙、更有创造性的实现方法。本书的目的就是帮助你更好地实现想法。

  • 第1章介 绍机器学习流程中的基本概念(数据、模型、特征等)。
  • 第 2 章研究数值型数据的基础特 征工程:过滤、分箱、缩放、对数变换和幂次变换,以及交互特征。
  • 第 3 章开始介绍自然 文本的特征工程,并研究词袋、n-gram 和短语检测等技术。
  • 第 4 章介绍 tf-idf(词频 - 逆 文档频率),并将其作为特征缩放的一个例子,说明特征缩放为什么会有效。
  • 从第 5 章开 始,节奏开始加快,我们要讨论高效的分类变量编码技术,包括特征散列化和分箱计数。
  • 第 6 章介绍主成分分析(PCA),此时我们已经深入到机器学习的腹地了。
  • 第 7 章将 k-均 值聚类作为一种特征化技术,说明了模型堆叠这一重要概念。

第 8 章专门讲解图像处理, 图像数据的特征提取要比文本数据困难得多。我们先介绍两种手动提取特征的技术:SIFT 和 HOG,然后再介绍深度学习这种最新的图像特征提取技术。

最后,第 9 章通过一个完 整的例子(为一个学术论文数据集创建推荐器)演示几种技术的实际应用。

成为VIP会员查看完整内容
《Feature Engineering for Machine Learning》英文PDF.pdf
《精通特征工程》中文PDF.pdf
0
210

简介: 特征工程在机器学习、数据挖掘和数据分析中起着关键作用。本文提供了特征工程的一般定义,以及该领域的主要问题、方法和挑战的概述。特征工程在大数据分析中起着关键作用。没有数据,机器学习和数据挖掘算法就无法工作。如果没有表示基础数据对象的功能,大数据分析则几乎不能实现,并且这些算法的结果质量在很大程度上取决于可用特征的质量。数据通常以各种形式存在,如图像、文本、图形、序列和时间序列。表示数据对象的常见方法是使用特征矢量。即使由特征向量表示的数据可能仍然需要新的有效特征。特征工程涉及满足生成和选择基于特征向量的有效数据表示的需求。

本书目录:

  • 1.预览概述
  • 2 文本数据特征工程 
  • 3 视觉数据特征提取学习
  • 4 基于特征的时序分析
  • 5 数据特征流工程
  • 6 序列特征生成与特征工程
  • 7 图与网络特征生成
  • 8 特征选择与评估
  • 9 监督学习中的自动特征工程
  • 10 基于模式的特征生成
  • 11 深度学习特征表示
  • 12 用于社交机器人检测的特征工程
  • 13 用于软件分析的特征生成与工程
  • 14 Twitter应用特征工程

下载链接: 链接:https://pan.baidu.com/s/1rshWh8-ST_Mtkw525mz-yQ

提取码:4abr

成为VIP会员查看完整内容
0
70

2018年出版了一本关于功能工程的新编辑书,其中12篇由主要专家就特征工程的不同方面提供章节。由于特征工程通常是特定于数据类型且依赖于应用程序的,本书包含专门介绍主要数据类型的特征工程的章节,如文本数据、图像数据、序列数据、时间序列数据、图形数据、流数据、软件工程数据、Twitter 数据和社交媒体数据。这些章节介绍了生成经过反复测试、手工制作的特定于域的功能以及自动通用功能生成方法(如 Word2Vec)的方法。

成为VIP会员查看完整内容
0
30

由于特征工程通常是特定于数据类型且依赖于应用程序的,本书包含专门介绍主要数据类型的特征工程的章节,如文本数据、图像数据、序列数据、时间序列数据、图形数据、流数据、软件工程数据、Twitter 数据和社交媒体数据。这些章节介绍了生成经过反复测试、手工制作的特定于域的功能以及自动通用功能生成方法(如 Word2Vec)的方法。

本书目录:

  1. 预览概述
  2. 文本数据特征工程 
  3. 视觉数据特征提取学习
  4. 基于特征的时序分析
  5. 数据特征流工程
  6. 序列特征生成与特征工程
  7. 图与网络特征生成
  8. 特征选择与评估
  9. 监督学习中的自动特征工程
  10. 基于模式的特征生成
  11. 深度学习特征表示
  12. 用于社交机器人检测的特征工程
  13. 用于软件分析的特征生成与工程
  14. Twitter应用特征工程

本书还包含有关特征选择、基于特征转换的自动方法、使用深度学习方法生成功能以及使用频繁和对比度模式生成特征的章节。有几章是关于在特定应用中使用特征工程的。

本书包含许多有用的特征工程概念和技术,这些概念和技术适用于多种方案:(a) 生成功能以表示没有要素时的数据,(b) 在(人们可能担心)存在时生成有效特征功能不够好/竞争力不够,(c) 在功能过多时选择功能,(d) 为特定类型的应用程序生成和选择有效功能,以及 (e) 了解与相关挑战以及需要处理的方法,各种数据类型。

成为VIP会员查看完整内容
0
68
小贴士
相关VIP内容
专知会员服务
24+阅读 · 2月25日
专知会员服务
26+阅读 · 2月7日
专知会员服务
39+阅读 · 2020年11月20日
【干货书】《机器学习导论(第二版)》,348页pdf
专知会员服务
108+阅读 · 2020年6月16日
专知会员服务
78+阅读 · 2020年6月4日
专知会员服务
103+阅读 · 2020年6月3日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
210+阅读 · 2020年2月15日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
68+阅读 · 2019年10月10日
相关资讯
【人工智能】一文带你读懂特征工程!
产业智能官
5+阅读 · 2018年9月9日
手把手教你用Python实现自动特征工程
量子位
6+阅读 · 2018年9月3日
推荐 :一文带你读懂特征工程
数据分析
12+阅读 · 2018年8月26日
独家 | 一文带你读懂特征工程!
数据派THU
6+阅读 · 2018年8月23日
【干货合集】一文读懂特征工程
七月在线实验室
10+阅读 · 2018年8月2日
一文看懂常用特征工程方法
AI研习社
13+阅读 · 2018年5月2日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
相关论文
Johannes Jakubik,Adrian Binding,Stefan Feuerriegel
0+阅读 · 2月24日
A Survey on The Expressive Power of Graph Neural Networks
Ryoma Sato
4+阅读 · 2020年3月9日
A Modern Introduction to Online Learning
Francesco Orabona
14+阅读 · 2019年12月31日
Weinan E,Chao Ma,Lei Wu
5+阅读 · 2019年12月30日
Few-shot Learning: A Survey
Yaqing Wang,Quanming Yao
279+阅读 · 2019年4月10日
FIGR: Few-shot Image Generation with Reptile
Louis Clouâtre,Marc Demers
3+阅读 · 2019年1月8日
Alexander Jung
9+阅读 · 2018年8月19日
Deep Learning
Nicholas G. Polson,Vadim O. Sokolov
3+阅读 · 2018年8月3日
Yong Wang,Xiao-Ming Wu,Qimai Li,Jiatao Gu,Wangmeng Xiang,Lei Zhang,Victor O. K. Li
8+阅读 · 2018年7月8日
Alireza Ghasemi,Hamid R. Rabiee,Mohsen Fadaee,Mohammad T. Manzuri,Mohammad H. Rohban
3+阅读 · 2016年2月24日
Top