面向机器学习和数据分析的特征工程,附新书419页pdf

【导读】特征工程在机器学习、数据挖掘和数据分析中起着关键作用。本文提供了特征工程的一般定义,以及该领域的主要问题、方法和挑战的概述。


xisnhu


特征工程在大数据分析中起着关键作用。没有数据,机器学习和数据挖掘算法就无法工作。如果没有表示基础数据对象的功能,大数据分析则几乎不能实现,并且这些算法的结果质量在很大程度上取决于可用特征的质量。数据通常以各种形式存在,如图像、文本、图形、序列和时间序列。表示数据对象的常见方法是使用特征矢量。即使由特征向量表示的数据可能仍然需要新的有效特征。特征工程涉及满足生成和选择基于特征向量的有效数据表示的需求。



什么是特征工程:特征工程领域包含各种问题和任务。最具代表性的问题和任务是特征转换特征生成和提取特征选择自动特征工程以及特征分析和评估


特征转换就是从现有要素构建新特征;这通常是使用数学映射实现的。例如,BMI 指数是通过使用数学公式的特征变换获得的要素。


特征生是生成通常不是特征转换得到新特征。例如,从图像的像素为图像生成新的可用要素(因为像素不是可用的要素)。许多用于定义要素的域特定方法也属于特征生成类别。除了特定于域的方法外,特征生成方法也可以是通用的自动方法。从给定数据挖掘的模式也可用于生成新功能 [2]。有时,术语"特征提取"和"特征构造"指的也是特征生成。


特征选择是有关从非常大的要素池中选择一小部分要素。缩小的要素集大小使得使用某些机器学习和数据分析算法在计算上是可行的。特征选择还可能导致这些算法的结果质量得到提高。特征选择传统上侧重于分类问题 ,但其他数据分析问题也需要它。


自动特征工程是关于自动生成大量特征和选择流程中生成的要素的有效子集的通用方法。


特征分析和评估是评估特征和特征集的有用性。这有时包含在特征选择的一部分。

应该强调的是,特征工程不仅仅是特征选择,也不仅仅是特征变换。


通过查看对两种最常用的数据类型(即文本数据和图像数据)所做的,可以更好地了解特征工程。对于文本数据,主要从以下方面考虑特征:文本作为字符串、单词表示顺序、单词表示包、术语权重、单一单词之外、文本的结构表示、语义结构特征、潜在语义表示、显式语义表示、文本表示的单词嵌入和上下文相关的文本表示。对于图像数据,主要从以下方面考虑特征:经典视觉特征表示(包括颜色特征、纹理特征、形状特征)、潜在特征提取(包括主体组件分析、内核主体)分量分析、多维缩放、等值图、拉普拉西亚特征图和深度图像要素(包括卷积神经网络)。


自动功能构造是一种流行的功能生成方法,Word2vec [7] 和基于深度学习的方法 [8] 是具有代表性的方法。下面我们将简要描述每个方面。


(a) Word2vec 是一组生成数字特征矢量来表示单词的方法。他们使用浅的双层神经网络来重建单词的语言上下文。Word2vec 的输入以一个大型文本体为输入,并生成一个矢量表示形式,通常有几百个维度,用于语料库中的每个唯一单词。当单词共享公共上下文时,它们的单词向量彼此相似。图 2(来自 [7])描述了 Word2vec 的两个体系结构。CBOW 体系结构训练一个模型,根据单词袋描述的上下文预测当前单词,而 Skip-gram 体系结构训练一个模型来预测给定当前单词的周围单词。Word2vec 已概括为图像数据、图形数据等。


(b) 深度学习方法将高维数据转换为低维表示形式,通过训练具有小中央层的多层神经网络来重建高维输入向量[8]。小中央层用作低维表示。研究了很多类型的神经网络,包括自动编码器网络[6]。图 3 给出了自动编码器体系结构的高级视图。


特征工程的新挑战:许多有效的特征生成方法和许多自动特征工程方法仍有待发现。即使是传统的研究主题,如特征选择和特征分析,也需要从新的视角重新审视。事实上,有数以百万计的方法来生成要素,因此要素选择和特征评估方法需要处理这种高维数。更重要的是,传统的特征选择和评估方法大多局限于分类和回归问题。显然,需要为其他数据分析任务(如聚类、异常值检测、模式挖掘、特征排名、建议等)开发新的特征选择和评估方法。最后,要将特征工程从艺术转变为成熟的工程学科,还有许多工作要做。




特征工程新书《Feature Engineering for Machine Learning and Data Analytics


2018年出版了一本关于功能工程的新编辑书,其中12篇由主要专家就特征工程的不同方面提供章节。

 


由于特征工程通常是特定于数据类型且依赖于应用程序的,本书包含专门介绍主要数据类型的特征工程的章节,如文本数据、图像数据、序列数据、时间序列数据、图形数据、流数据、软件工程数据、Twitter 数据和社交媒体数据。这些章节介绍了生成经过反复测试、手工制作的特定于域的功能以及自动通用功能生成方法(如 Word2Vec)的方法。


本书目录

1. 预览概述

2 文本数据特征工程 

3 视觉数据特征提取学习

4 基于特征的时序分析

5 数据特征流工程

6 序列特征生成与特征工程

7 图与网络特征生成

8 特征选择与评估

9 监督学习中的自动特征工程

10 基于模式的特征生成

11 深度学习特征表示

12 用于社交机器人检测的特征工程

13 用于软件分析的特征生成与工程 

14  Twitter应用特征工程


本书还包含有关特征选择、基于特征转换的自动方法、使用深度学习方法生成功能以及使用频繁和对比度模式生成特征的章节。有几章是关于在特定应用中使用特征工程的。


本书包含许多有用的特征工程概念和技术,这些概念和技术适用于多种方案:(a) 生成功能以表示没有要素时的数据,(b) 在(人们可能担心)存在时生成有效特征功能不够好/竞争力不够,(c) 在功能过多时选择功能,(d) 为特定类型的应用程序生成和选择有效功能,以及 (e) 了解与相关挑战以及需要处理的方法,各种数据类型。


特征工程新书《面向机器学习和数据分析的特征工程》便捷下载

请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“FEML” 就可以获取面向机器学习和数据分析的特征工程下载链接~ 



文中提到的书

https://www.crcpress.com/Feature-Engineering-for-Machine-Learning-and-Data-Analytics/Dong-Liu/p/book/9781138744387


原文链接

https://www.kdnuggets.com/2019/02/quick-guide-feature-engineering.html



-END-

专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询

请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成!560+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

展开全文
Top
微信扫码咨询专知VIP会员