【2020新书】数据结构与数据表示指南,112页pdf

10 月 6 日 专知
【2020新书】数据结构与数据表示指南,112页pdf



从一开始就创建良好的数据,而不是在收集数据之后修复它。通过遵循这本书中的指导方针,你将能够进行更有效的分析,并产生研究数据的及时演示。

数据分析师通常与数据集提出了勘探和研究设计不良,导致解释的困难和延误产生有意义的结果。数据分析培训的重点是如何在开始认真分析之前清理和转换数据集。通过使用良好的数据集设计和理解数据类型如何决定可以执行的分析类型,可以避免不恰当或令人困惑的表示、度量单位选择、编码错误、缺失值、离群值等。


这本书讨论了数据集创建的原则和最佳实践,并涵盖了基本数据类型及其相关的适当统计和可视化。这本书的一个重点是为什么选择某些数据类型来表示概念和度量,而不是典型的讨论如何分析选定的特定数据类型。


你会: 

  • 注意创建和收集数据的原则

  • 了解基本数据类型和表示

  • 选择数据类型,预测分析目标

  • 理解数据集的结构和用于分析和共享的实践

  • 由例子引导和用例(好的和坏的)

  • 使用清洁工具和方法创建良好的数据




请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“DS112” 就可以获取《【2020新书】数据结构与数据表示指南,112页pdf的pdf下载链接~ 

文为专知编译,转载请联系本公众号获得授权

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

本书围绕虚拟化、并发和持久性这三个主要概念展开,介绍了所有现代系统的主要组件(包括调度、虚拟内存管理、磁盘和I/O子系统、文件系统)。全书共50章,分为3个部分,分别讲述虚拟化、并发和持久性的相关内容。作者以对话形式引入所介绍的主题概念,行文诙谐幽默却又鞭辟入里,力求帮助读者理解操作系统中虚拟化、并发和持久性的原理。本书内容全面,并给出了真实可运行的代码(而非伪代码),还提供了相应的练习,很适合高等院校相关专业的教师开展教学和高校学生进行自学。​

本书具有以下特色:

  • 主题突出,紧紧围绕操作系统的三大主题元素——虚拟化、并发和持久性。
  • 以对话的方式引入背景,提出问题,进而阐释原理,启发动手实践。
  • 包含众多“补充”和“提示”,拓展读者知识面,增加趣味性。
  • 使用真实代码而不是伪代码,让读者更加深入透彻地了解操作系统。
  • 提供作业、模拟和项目等众多学习方式,鼓励读者动手实践。
  • 为教师提供教学辅助资源。

成为VIP会员查看完整内容
0
31

由于特征工程通常是特定于数据类型且依赖于应用程序的,本书包含专门介绍主要数据类型的特征工程的章节,如文本数据、图像数据、序列数据、时间序列数据、图形数据、流数据、软件工程数据、Twitter 数据和社交媒体数据。这些章节介绍了生成经过反复测试、手工制作的特定于域的功能以及自动通用功能生成方法(如 Word2Vec)的方法。

本书目录:

  1. 预览概述
  2. 文本数据特征工程 
  3. 视觉数据特征提取学习
  4. 基于特征的时序分析
  5. 数据特征流工程
  6. 序列特征生成与特征工程
  7. 图与网络特征生成
  8. 特征选择与评估
  9. 监督学习中的自动特征工程
  10. 基于模式的特征生成
  11. 深度学习特征表示
  12. 用于社交机器人检测的特征工程
  13. 用于软件分析的特征生成与工程
  14. Twitter应用特征工程

本书还包含有关特征选择、基于特征转换的自动方法、使用深度学习方法生成功能以及使用频繁和对比度模式生成特征的章节。有几章是关于在特定应用中使用特征工程的。

本书包含许多有用的特征工程概念和技术,这些概念和技术适用于多种方案:(a) 生成功能以表示没有要素时的数据,(b) 在(人们可能担心)存在时生成有效特征功能不够好/竞争力不够,(c) 在功能过多时选择功能,(d) 为特定类型的应用程序生成和选择有效功能,以及 (e) 了解与相关挑战以及需要处理的方法,各种数据类型。

成为VIP会员查看完整内容
0
53
小贴士
相关VIP内容
专知会员服务
20+阅读 · 11月2日
专知会员服务
31+阅读 · 10月28日
专知会员服务
13+阅读 · 9月15日
专知会员服务
33+阅读 · 7月1日
专知会员服务
78+阅读 · 3月27日
机器学习速查手册,135页pdf
专知会员服务
106+阅读 · 3月15日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
111+阅读 · 2月21日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
53+阅读 · 2019年10月10日
相关论文
Attentive Graph Neural Networks for Few-Shot Learning
Hao Cheng,Joey Tianyi Zhou,Wee Peng Tay,Bihan Wen
18+阅读 · 7月14日
A Modern Introduction to Online Learning
Francesco Orabona
11+阅读 · 2019年12月31日
Duc Tam Nguyen,Zhongyu Lou,Michael Klar,Thomas Brox
5+阅读 · 2019年1月28日
Learning Implicit Fields for Generative Shape Modeling
Zhiqin Chen,Hao Zhang
4+阅读 · 2018年12月6日
A Survey of Learning Causality with Data: Problems and Methods
Ruocheng Guo,Lu Cheng,Jundong Li,P. Richard Hahn,Huan Liu
5+阅读 · 2018年9月25日
To Cluster, or Not to Cluster: An Analysis of Clusterability Methods
A. Adolfsson,M. Ackerman,N. C. Brownstein
3+阅读 · 2018年8月24日
Peter W. Battaglia,Jessica B. Hamrick,Victor Bapst,Alvaro Sanchez-Gonzalez,Vinicius Zambaldi,Mateusz Malinowski,Andrea Tacchetti,David Raposo,Adam Santoro,Ryan Faulkner,Caglar Gulcehre,Francis Song,Andrew Ballard,Justin Gilmer,George Dahl,Ashish Vaswani,Kelsey Allen,Charles Nash,Victoria Langston,Chris Dyer,Nicolas Heess,Daan Wierstra,Pushmeet Kohli,Matt Botvinick,Oriol Vinyals,Yujia Li,Razvan Pascanu
3+阅读 · 2018年6月4日
K M Annervaz,Somnath Basu Roy Chowdhury,Ambedkar Dukkipati
5+阅读 · 2018年5月21日
Behnaz Nojavanasghari,Yuchi Huang,Saad Khan
4+阅读 · 2018年1月30日
Sungwoon Choi,Heonseok Ha,Uiwon Hwang,Chanju Kim,Jung-Woo Ha,Sungroh Yoon
4+阅读 · 2018年1月17日
Top