由O'Reilly Media,Inc.出版的《Feature Engineering for Machine Learning》(国内译作《精通特征工程》)一书,可以说是特征工程的宝典,本文在知名开源apachecn组织翻译的英文版基础上,将原文修改成jupyter notebook格式,并增加和修改了部分代码,测试全部通过。这个资料可以说是特征工程的宝典,值得推荐。

特征工程是机器学习流程中至关重要的一个环节,然而专门讨论这个话题的著作却很少。本书旨在填补这一空白,着重阐明特征工程的基本原则,介绍大量特征工程技术,教你从原始数据中提取出正确的特征并将其转换为适合机器学习模型的格式,从而轻松构建模型,增强机器学习算法的效果。

然而,本书并非单纯地讲述特征工程的基本原则,而是通过大量示例和练习将重点放在了实际应用上。每一章都集中研究一个数据问题:如何表示文本数据或图像数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。最后一章通过一个完整的例子演示了多种特征工程技术的实际应用。书中所有代码示例均是用Python编写的,涉及NumPy、Pandas、scikit-learn和Matplotlib等程序包。

  • 数值型数据的特征工程:过滤、分箱、缩放、对数变换和指数变换
  • 自然文本技术:词袋、n元词与短语检测
  • 基于频率的过滤和特征缩放
  • 分类变量编码技术:特征散列化与分箱计数
  • 使用主成分分析的基于模型的特征工程
  • 模型堆叠与k-均值特征化
  • 图像特征提取:人工提取与深度学习
成为VIP会员查看完整内容
120

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【干货书】Python机器学习,361页pdf
专知会员服务
255+阅读 · 2021年2月25日
Python机器学习经典实例,366页pdf
专知会员服务
102+阅读 · 2021年1月2日
【干货书】Python机器学习及金融应用,384页pdf
专知会员服务
132+阅读 · 2021年1月1日
【经典书】《数据科学家统计学实战》,409页pdf
专知会员服务
100+阅读 · 2020年12月31日
专知会员服务
165+阅读 · 2020年6月4日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
192+阅读 · 2020年5月2日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
347+阅读 · 2020年2月15日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
140+阅读 · 2019年10月10日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
超级干货 :一文读懂特征工程
数据分析
9+阅读 · 2017年9月6日
Arxiv
32+阅读 · 2021年3月8日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
5+阅读 · 2019年4月25日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
25+阅读 · 2018年1月24日
VIP会员
相关VIP内容
【干货书】Python机器学习,361页pdf
专知会员服务
255+阅读 · 2021年2月25日
Python机器学习经典实例,366页pdf
专知会员服务
102+阅读 · 2021年1月2日
【干货书】Python机器学习及金融应用,384页pdf
专知会员服务
132+阅读 · 2021年1月1日
【经典书】《数据科学家统计学实战》,409页pdf
专知会员服务
100+阅读 · 2020年12月31日
专知会员服务
165+阅读 · 2020年6月4日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
192+阅读 · 2020年5月2日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
347+阅读 · 2020年2月15日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
140+阅读 · 2019年10月10日
相关论文
微信扫码咨询专知VIP会员