干净的数据：数据清洗入门与实践，204页pdf - 专知VIP

会员服务 ·

29

数据清洗 ·

2020 年 5 月 14 日

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本书主要内容包括：数据清洗在数据科学领域中的重要作用，文件格式、数据类型、字符编码的基本概念，组织和处理数据的电子表格与文本编辑器，各种格式数据的转换方法，解析和清洗网页上的HTML 文件的三种策略，提取和清洗PDF 文件中数据的方法，检测和清除RDBMS 中的坏数据的解决方案，以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。

本书适合任何水平的数据科学家以及对数据清理感兴趣的读者阅读。

数据清洗是数据挖掘与分析过程中不可缺少的一个环节，但因为数据类型极其复杂，传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法，就可以让数据清洗工作事半功倍。

本书从文件格式、数据类型、字符编码等基本概念讲起，通过真实的示例，探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目，让读者将所有数据清洗技术付诸实践，完成整个数据科学过程。

如果你是一位数据科学家，或者从事数据科学工作，哪怕是位新手，只要对数据清洗有兴趣，那么本书就适合你阅读！

理解数据清洗在整个数据科学过程中的作用
掌握数据清洗的基础知识，包括文件清洗、数据类型、字符编码等
发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能
学会常见数据格式的相互转换，如JSON、CSV和一些特殊用途的格式
采用三种策略来解析和清洗HTML文件中的数据
揭开PDF文档的秘密，提取需要的数据
借助一系列解决方案来清洗存放在关系型数据库里的坏数据
创建自己的干净数据集，为其打包、添加授权许可并与他人共享
使用书中的工具以及Twitter和Stack Overflow数据，完成两个真实的项目

成为VIP会员查看完整内容

相关内容

【Manning2020新书】Python工作手册，249页pdf，Python 50个必要练习

【Manning2020新书】Python工作手册，249页pdf，Python 50个必要练习

专知会员服务

107+阅读 · 2020年7月9日

【实用书】Python机器学习Scikit-Learn应用指南，247页pdf

【实用书】Python机器学习Scikit-Learn应用指南，247页pdf

专知会员服务

270+阅读 · 2020年6月10日

【2020新书】Pandas编程思想，190页pdf阐述正确使用Python数据分析库

【2020新书】Pandas编程思想，190页pdf阐述正确使用Python数据分析库

专知会员服务

157+阅读 · 2020年6月7日

【干货书】Python机器学习导论，340页pdf数据科学家指南

专知会员服务

175+阅读 · 2020年6月4日

【干货书】机器学习，408页pdf，开发人员和技术专业人员的动手实践手册

【干货书】机器学习，408页pdf，开发人员和技术专业人员的动手实践手册

专知会员服务

217+阅读 · 2020年5月7日

【经典书】Python算法第二版，303页pdf，掌握Python语言中的基本算法

【经典书】Python算法第二版，303页pdf，掌握Python语言中的基本算法

专知会员服务

220+阅读 · 2020年3月29日

【经典书】数据结构与算法C++，第二版，738页pdf

【经典书】数据结构与算法C++，第二版，738页pdf

专知会员服务

169+阅读 · 2020年3月27日

【经典书】精通机器学习特征工程，中文版，178页pdf

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

【书籍推荐】简洁的Python编程（Clean Python），附274页pdf

【书籍推荐】简洁的Python编程（Clean Python），附274页pdf

专知会员服务

183+阅读 · 2020年1月1日

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

专知会员服务

143+阅读 · 2019年12月1日

【干货书】Python机器学习导论，340页pdf数据科学家指南

【干货书】Python机器学习导论，340页pdf数据科学家指南

专知

97+阅读 · 2020年6月4日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知

69+阅读 · 2020年3月7日

【经典书】精通机器学习特征工程，中文版，178页pdf

【经典书】精通机器学习特征工程，中文版，178页pdf

专知

135+阅读 · 2020年2月15日

大神自学后作《Python数据分析入门——从数据获取到可视化》

大神自学后作《Python数据分析入门——从数据获取到可视化》

数据猿

19+阅读 · 2018年5月29日

从入门到上手写脚本/爬数据/搭网站，有哪些快速学习Python的技巧

从入门到上手写脚本/爬数据/搭网站，有哪些快速学习Python的技巧

Python开发者

11+阅读 · 2018年4月10日

资源 | 开放Python书籍：一本短小精悍的初学者入门指南

资源 | 开放Python书籍：一本短小精悍的初学者入门指南

机器之心

18+阅读 · 2018年3月25日

Python 如何快速入门？

Python 如何快速入门？

全球人工智能

6+阅读 · 2018年3月15日

Python & 机器学习之项目实践 | 赠书

Python & 机器学习之项目实践 | 赠书

人工智能头条

14+阅读 · 2017年12月26日

【入门】数据分析六部曲

【入门】数据分析六部曲

36大数据

18+阅读 · 2017年12月6日

【下载】Scikit-learn作者新书《Python机器学习导论》, 教程+代码手把手带你实践机器学习算法

【下载】Scikit-learn作者新书《Python机器学习导论》, 教程+代码手把手带你实践机器学习算法

专知

72+阅读 · 2017年12月4日

A Survey on Distributed Machine Learning

Arxiv

45+阅读 · 2019年12月20日

Blockchain for Future Smart Grid: A Comprehensive Survey

Blockchain for Future Smart Grid: A Comprehensive Survey

Arxiv

21+阅读 · 2019年11月8日

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

Arxiv

9+阅读 · 2019年8月28日

Trajectory Prediction by Coupling Scene-LSTM with Human Movement LSTM

Arxiv

4+阅读 · 2019年8月23日

Neural Architecture Search: A Survey

Arxiv

12+阅读 · 2018年9月5日

Learning Blind Video Temporal Consistency

Learning Blind Video Temporal Consistency

Arxiv

3+阅读 · 2018年8月1日

Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features

Arxiv

3+阅读 · 2018年6月12日

Learning Rich Features for Image Manipulation Detection

Arxiv

9+阅读 · 2018年5月13日

Video Person Re-identification by Temporal Residual Learning

Arxiv

5+阅读 · 2018年2月22日

Towards Understanding and Answering Multi-Sentence Recommendation Questions on Tourism

Arxiv

15+阅读 · 2018年1月5日

VIP会员

相关主题

相关VIP内容

【Manning2020新书】Python工作手册，249页pdf，Python 50个必要练习

【Manning2020新书】Python工作手册，249页pdf，Python 50个必要练习

专知会员服务

107+阅读 · 2020年7月9日

【实用书】Python机器学习Scikit-Learn应用指南，247页pdf

【实用书】Python机器学习Scikit-Learn应用指南，247页pdf

专知会员服务

270+阅读 · 2020年6月10日

【2020新书】Pandas编程思想，190页pdf阐述正确使用Python数据分析库

【2020新书】Pandas编程思想，190页pdf阐述正确使用Python数据分析库

专知会员服务

157+阅读 · 2020年6月7日

【干货书】Python机器学习导论，340页pdf数据科学家指南

专知会员服务

175+阅读 · 2020年6月4日

【干货书】机器学习，408页pdf，开发人员和技术专业人员的动手实践手册

【干货书】机器学习，408页pdf，开发人员和技术专业人员的动手实践手册

专知会员服务

217+阅读 · 2020年5月7日

【经典书】Python算法第二版，303页pdf，掌握Python语言中的基本算法

【经典书】Python算法第二版，303页pdf，掌握Python语言中的基本算法

专知会员服务

220+阅读 · 2020年3月29日

【经典书】数据结构与算法C++，第二版，738页pdf

【经典书】数据结构与算法C++，第二版，738页pdf

专知会员服务

169+阅读 · 2020年3月27日

【经典书】精通机器学习特征工程，中文版，178页pdf

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

【书籍推荐】简洁的Python编程（Clean Python），附274页pdf

【书籍推荐】简洁的Python编程（Clean Python），附274页pdf

专知会员服务

183+阅读 · 2020年1月1日

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

专知会员服务

143+阅读 · 2019年12月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《利用射频传感器载荷增强无人机的侦察、监视与目标获取（ISR）能力》报告

《导航战》2025最新报告

人工智能驱动的国防战术通信与网络：提升现代战争中的态势感知、安全性与自主决策 | 万字长文

《有人-无人轻型驱逐舰与中型无人水面艇支队在第二与第一岛链作战中的部署概念（CONOPS）》56页报告

相关资讯

【干货书】Python机器学习导论，340页pdf数据科学家指南

【干货书】Python机器学习导论，340页pdf数据科学家指南

专知

97+阅读 · 2020年6月4日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知

69+阅读 · 2020年3月7日

【经典书】精通机器学习特征工程，中文版，178页pdf

【经典书】精通机器学习特征工程，中文版，178页pdf

专知

135+阅读 · 2020年2月15日

大神自学后作《Python数据分析入门——从数据获取到可视化》

大神自学后作《Python数据分析入门——从数据获取到可视化》

数据猿

19+阅读 · 2018年5月29日

从入门到上手写脚本/爬数据/搭网站，有哪些快速学习Python的技巧

从入门到上手写脚本/爬数据/搭网站，有哪些快速学习Python的技巧

Python开发者

11+阅读 · 2018年4月10日

资源 | 开放Python书籍：一本短小精悍的初学者入门指南

资源 | 开放Python书籍：一本短小精悍的初学者入门指南

机器之心

18+阅读 · 2018年3月25日

Python 如何快速入门？

Python 如何快速入门？

全球人工智能

6+阅读 · 2018年3月15日

Python & 机器学习之项目实践 | 赠书

Python & 机器学习之项目实践 | 赠书

人工智能头条

14+阅读 · 2017年12月26日

【入门】数据分析六部曲

【入门】数据分析六部曲

36大数据

18+阅读 · 2017年12月6日

【下载】Scikit-learn作者新书《Python机器学习导论》, 教程+代码手把手带你实践机器学习算法

【下载】Scikit-learn作者新书《Python机器学习导论》, 教程+代码手把手带你实践机器学习算法

专知

72+阅读 · 2017年12月4日

相关论文

A Survey on Distributed Machine Learning

Arxiv

45+阅读 · 2019年12月20日

Blockchain for Future Smart Grid: A Comprehensive Survey

Blockchain for Future Smart Grid: A Comprehensive Survey

Arxiv

21+阅读 · 2019年11月8日

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

Arxiv

9+阅读 · 2019年8月28日

Trajectory Prediction by Coupling Scene-LSTM with Human Movement LSTM

Arxiv

4+阅读 · 2019年8月23日

Neural Architecture Search: A Survey

Arxiv

12+阅读 · 2018年9月5日

Learning Blind Video Temporal Consistency

Learning Blind Video Temporal Consistency

Arxiv

3+阅读 · 2018年8月1日

Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features

Arxiv

3+阅读 · 2018年6月12日

Learning Rich Features for Image Manipulation Detection

Arxiv

9+阅读 · 2018年5月13日

Video Person Re-identification by Temporal Residual Learning

Arxiv

5+阅读 · 2018年2月22日

Towards Understanding and Answering Multi-Sentence Recommendation Questions on Tourism

Arxiv

15+阅读 · 2018年1月5日

微信扫码咨询专知VIP会员