本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。

本书适合任何水平的数据科学家以及对数据清理感兴趣的读者阅读。

数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。

本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。

如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么本书就适合你阅读!

  • 理解数据清洗在整个数据科学过程中的作用
  • 掌握数据清洗的基础知识,包括文件清洗、数据类型、字符编码等
  • 发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能
  • 学会常见数据格式的相互转换,如JSON、CSV和一些特殊用途的格式
  • 采用三种策略来解析和清洗HTML文件中的数据
  • 揭开PDF文档的秘密,提取需要的数据
  • 借助一系列解决方案来清洗存放在关系型数据库里的坏数据
  • 创建自己的干净数据集,为其打包、添加授权许可并与他人共享
  • 使用书中的工具以及Twitter和Stack Overflow数据,完成两个真实的项目
成为VIP会员查看完整内容
0
50

相关内容

如果编程是一种魔法,那么web抓取无疑是一种魔术。通过编写一个简单的自动化程序,您可以查询web服务器、请求数据并解析它以提取所需的信息。这本实用书籍的扩展版不仅介绍了web抓取,而且还提供了从现代web中抓取几乎所有类型数据的全面指南。

第1部分侧重于web抓取机制:使用Python从web服务器请求信息,执行服务器响应的基本处理,并以自动方式与站点交互。第2部分探索了各种更具体的工具和应用程序,以适应您可能遇到的任何web抓取场景。

  • 解析复杂的HTML页面
  • 使用Scrapy框架开发爬行器
  • 学习存储您搜集的数据的方法
  • 从文档中读取和提取数据
  • 清理和规范化格式错误的数据
  • 阅读和编写自然语言
  • 浏览表单和登录
  • 抓取JavaScript和爬过api
  • 使用和编写图像到文本的软件
  • 避免抓取陷阱和机器人拦截器
  • 使用抓取工具来测试你的网站
成为VIP会员查看完整内容
0
40

从数据科学的角度研究Python,并学习用于做出关键业务决策的数据可视化的成熟技术。从介绍Python的数据科学开始,您将进一步了解Python环境,并熟悉Jupyter Notebook和Spyder等编辑器。通过Python编程入门之后,您将掌握数据科学中使用的基本Python编程技术。接下来是数据可视化,您将看到它如何满足现代业务需求并形成决策的关键因素。您还将了解Python中一些流行的数据可视化库。

将重点转移到数据结构,您将从数据科学的角度了解数据结构的各个方面。然后使用Python处理文件I/O和正则表达式,然后收集和清理数据。继续探索和分析数据,您将看到Python中的高级数据结构。然后,您将深入研究数据可视化技术,了解Python中的许多绘图系统。

最后,您将完成一个详细的案例研究,您将有机会重温到目前为止介绍的概念。

你会学到什么

  • 在数据科学中使用Python编程技术
  • Python中的主数据收集
  • 为BI系统创建引人入胜的可视化
  • 部署收集和清理数据的有效策略
  • 整合Seaborn和Matplotlib绘图系统

这本书是给谁看的

具有基本Python编程知识的开发人员希望采用使用Python进行数据分析和可视化的关键策略。

成为VIP会员查看完整内容
0
51

获得在日常工作中应用机器学习所需的信心。通过本实用指南,作者Matthew Kirk向您展示了如何在您的代码中集成和测试机器学习算法,而没有学术潜台词。

全书以图形和突出显示的代码示例为特色,使用Python的Numpy、panda、Scikit-Learn和SciPy数据科学库进行测试。如果你是一个软件工程师或业务分析师,对数据科学感兴趣,这本书将帮助你:

  • 参考真实世界的例子来测试每一个算法,通过参与,动手练习
  • 在开始编码之前,应用测试驱动开发(TDD)来编写和运行测试
  • 探索使用数据提取和特性开发来改进您的机器学习模型的技术
  • 注意机器学习的风险,如数据拟合不足或过拟合
  • 使用k近邻、神经网络、集群和其他算法
成为VIP会员查看完整内容
0
38

找到有合适技能的人。本书阐明了创建高效能数据集成团队的最佳实践,使您能够理解计划、设计和监视一次性迁移和日常集成系统的技能和需求、文档和解决方案。

数据的增长是爆炸式的。随着跨企业系统的多个信息源的不断到达,将这些系统组合成一个单一的、内聚的、可记录的单元变得比以往任何时候都更加重要。但是,与其他软件规程相比,集成的方法有很大的不同,它要求能够编写代码、协作并将复杂的业务规则分解为可伸缩的模型。

数据迁移和集成可能很复杂。在许多情况下,项目团队将实际的迁移保留到项目的最后一个周末,任何问题都可能导致错过最后期限,或者在最坏的情况下导致需要在部署后进行协调的数据损坏。本书详细介绍了如何进行战略规划以避免这些最后时刻的风险,以及如何为未来的集成项目构建正确的解决方案。

你会学到什么

  • 理解集成的“语言”,以及它们在优先级和所有权方面的关系
  • 创建有价值的文档,带领您的团队从发现到部署
  • 研究当今市场上最重要的集成工具
  • 监视您的错误日志,并查看输出如何增加持续改进的周期
  • 为整个企业提供有价值的集成解决方案

这本书是给谁看的

构建相应实践的执行和集成团队领导。它也适用于需要额外熟悉ETL工具、集成过程和相关项目可交付成果的集成架构师、开发人员和业务分析人员

成为VIP会员查看完整内容
0
30

这本教科书解释的概念和技术需要编写的程序,可以有效地处理大量的数据。面向项目和课堂测试,这本书提出了一些重要的算法,由例子支持,给计算机程序员面临的问题带来意义。计算复杂性的概念也被介绍,演示什么可以和不可以被有效地计算,以便程序员可以对他们使用的算法做出明智的判断。特点:包括介绍性和高级数据结构和算法的主题,与序言顺序为那些各自的课程在前言中提供; 提供每个章节的学习目标、复习问题和编程练习,以及大量的说明性例子; 在相关网站上提供可下载的程序和补充文件,以及作者提供的讲师资料; 为那些来自不同的语言背景的人呈现Python的初级读本。

成为VIP会员查看完整内容
0
50
Top