【入门】数据分析六部曲

2017 年 12 月 6 日 36大数据 好甜
【入门】数据分析六部曲


作者:好甜


什么是数据分析?数据分析是用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇理解并消化,以求最大化地开发数据的功能,发挥数据的作用。


数据分析的目的?把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出研究对象的内在规律。


什么是数据分析?


数据分析的目的


把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出研究对象的内在规律。


数据分析的分类



数据分析的三大作用:现状分析、原因分析、预测分析。


数据分析的六部曲



数据分析流程


1
明确目的和思路


梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标(各类分析指标需合理搭配使用)。同时,确保分析框架的体系化和逻辑性。


2
数据收集


一般数据来源于四种方式:数据库、第三方数据统计工具、专业的调研机构的统计年鉴或报告(如艾瑞资讯)、市场调查。


对于数据的收集需要预先做埋点,在发布前一定要经过谨慎的校验和测试,因为一旦版本发布出去而数据采集出了问题,就获取不到所需要的数据,影响分析。


3
数据处理


数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法,将各种原始数据加工成为产品经理需要的直观的可看数据。


4
数据分析


数据分析是用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。


常用的数据分析工具,掌握Excel的数据透视表,就能解决大多数的问题。需要的话,可以再有针对性的学习SPSS、SAS等。


数据挖掘是一种高级的数据分析方法,侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。


5
数据展现


一般情况下,数据是通过表格和图形的方式来呈现的。常用的数据图表包括饼图、柱形图、条形图、折线图、气泡图、散点图、雷达图等。进一步加工整理变成我们需要的图形,如金字塔图、矩阵图、漏斗图、帕雷托图等。


一般能用图说明问题的就不用表格,能用表说明问题的就不用文字。


图表制作的五个步骤:


  1. 确定要表达主题

  2. 确定哪种图表最适合

  3. 选择数据制作图表

  4. 检查是否真实反映数据

  5. 检查是否表达观点


常用图表类型和作用:



图片来自于网易云课堂《谁说菜鸟不会数据分析》


6
报告撰写


一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。


好的数据分析报告需要有明确的结论、建议或解决方案。


数据分析的四大误区


1.分析目的不明确,为了分析而分析;


2.缺乏行业、公司业务认知,分析结果偏离实际。数据必须和业务结合才有意义。摸清楚所在产业链的整个结构,对行业的上游和下游的经营情况有大致的了解,再根据业务当前的需要,制定发展计划,归类出需要整理的数据。同时,熟悉业务才能看到数据背后隐藏的信息;


3.为了方法而方法,为了工具而工具,只要能解决问题的方法和工具就是好的方法和工具;


4.数据本身是客观的,但被解读出来的数据是主观的。同样的数据由不同的人分析很可能得出完全相反的结论,所以一定不能提前带着观点去分析。


 End 

阅读排行榜/精华推荐
1
入门学习

如果有人质疑大数据?不妨把这两个视频转给他 

视频:大数据到底是什么 都说干大数据挣钱 1分钟告诉你都在干什么

人人都需要知道 关于大数据最常见的10个问题

2
进阶修炼

从底层到应用,那些数据人的必备技能

如何高效地学好 R?

一个程序员怎样才算精通Python?

3
数据源爬取/收集

排名前50的开源Web爬虫用于数据挖掘

33款可用来抓数据的开源爬虫软件工具

在中国我们如何收集数据?全球数据收集大教程

4
干货教程

PPT:数据可视化,到底该用什么软件来展示数据?

干货|电信运营商数据价值跨行业运营的现状与思考

大数据分析的集中化之路 建设银行大数据应用实践PPT

【实战PPT】看工商银行如何利用大数据洞察客户心声?              

六步,让你用Excel做出强大漂亮的数据地图

 数据商业的崛起 解密中国大数据第一股——国双

双11剁手幕后的阿里“黑科技” OceanBase/金融云架构/ODPS/dataV

金融行业大数据用户画像实践


讲述大数据在金融、电信、工业、商业、电子商务、网络游戏、移动互联网等多个领域的应用,以中立、客观、专业、可信赖的态度,多层次、多维度地影响着最广泛的大数据人群

36大数据

长按识别二维码,关注36大数据


搜索「36大数据」或输入36dsj.com查看更多内容。

投稿/商务/合作:dashuju36@qq.com


点击下方 “阅读原文”查看更多

↓↓↓

登录查看更多
8

相关内容

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。

使用Microsoft Excel中流行的数据挖掘技术,更好地理解机器学习方法。

软件工具和编程语言包接受数据输入并直接交付数据挖掘结果,对工作机制没有任何见解,并在输入和输出之间造成了鸿沟。这就是Excel可以提供帮助的地方。

Excel允许您以透明的方式处理数据。当您打开一个Excel文件时,数据立即可见,您可以直接使用它。在执行挖掘任务时,可以检查中间结果,从而更深入地理解如何操作数据和获得结果。这些是隐藏在软件工具和编程语言包中的模型构建过程的关键方面。

这本书教你通过Excel进行数据挖掘。您将了解当数据集不是很大时Excel在数据挖掘方面的优势。它可以为您提供数据挖掘的可视化表示,在结果中建立信心。您将手动完成每一个步骤,这不仅提供了一个主动学习体验,而且还告诉您挖掘过程是如何工作的,以及如何发现数据内部隐藏的模式。

你将学到什么

  • 使用可视化的一步一步的方法理解数据挖掘
  • 首先从理论上介绍了一种数据挖掘方法,然后是Excel的实现
  • 揭开机器学习算法背后的神秘面纱,让每个人都能接触到一个复杂的话题
  • 熟练使用Excel公式和函数
  • 获得数据挖掘和Excel的实际操作经验

这本书是给谁的

  • 任何对学习数据挖掘或机器学习感兴趣的人,特别是数据科学视觉学习者和擅长Excel的人,希望探索数据科学主题和/或扩展他们的Excel技能的人。建议对Excel有基本或初级的了解。
成为VIP会员查看完整内容
0
54

本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。

本书适合任何水平的数据科学家以及对数据清理感兴趣的读者阅读。

数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。

本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。

如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么本书就适合你阅读!

  • 理解数据清洗在整个数据科学过程中的作用
  • 掌握数据清洗的基础知识,包括文件清洗、数据类型、字符编码等
  • 发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能
  • 学会常见数据格式的相互转换,如JSON、CSV和一些特殊用途的格式
  • 采用三种策略来解析和清洗HTML文件中的数据
  • 揭开PDF文档的秘密,提取需要的数据
  • 借助一系列解决方案来清洗存放在关系型数据库里的坏数据
  • 创建自己的干净数据集,为其打包、添加授权许可并与他人共享
  • 使用书中的工具以及Twitter和Stack Overflow数据,完成两个真实的项目
成为VIP会员查看完整内容
0
94
小贴士
相关资讯
一文看懂怎么用 Python 做数据分析
大数据技术
19+阅读 · 2019年5月5日
荐书丨Python数据分析从入门到精通
程序人生
7+阅读 · 2018年3月31日
Python 如何快速入门?
全球人工智能
4+阅读 · 2018年3月15日
福利 | 当Python遇上大数据与机器学习,入门so easy!
数据分析/数据挖掘 入门级选手建议
R语言中文社区
4+阅读 · 2017年12月20日
一位数据分析师的书单
R语言中文社区
7+阅读 · 2017年10月28日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
8+阅读 · 2017年9月22日
课程 | 12个适合机器学习入门的经典案例
相关VIP内容
专知会员服务
92+阅读 · 2020年6月29日
专知会员服务
54+阅读 · 2020年6月28日
专知会员服务
63+阅读 · 2020年6月2日
专知会员服务
73+阅读 · 2020年5月19日
专知会员服务
94+阅读 · 2020年5月14日
专知会员服务
48+阅读 · 2020年5月9日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
185+阅读 · 2020年3月17日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
87+阅读 · 2020年3月12日
相关论文
Muhan Zhang,Shali Jiang,Zhicheng Cui,Roman Garnett,Yixin Chen
6+阅读 · 2019年5月30日
Rik Koncel-Kedziorski,Dhanush Bekal,Yi Luan,Mirella Lapata,Hannaneh Hajishirzi
32+阅读 · 2019年4月4日
A Comprehensive Survey on Graph Neural Networks
Zonghan Wu,Shirui Pan,Fengwen Chen,Guodong Long,Chengqi Zhang,Philip S. Yu
8+阅读 · 2019年3月10日
Ziwei Zhang,Peng Cui,Wenwu Zhu
37+阅读 · 2018年12月11日
Keyulu Xu,Weihua Hu,Jure Leskovec,Stefanie Jegelka
17+阅读 · 2018年10月1日
Babak Hosseini,Barbara Hammer
3+阅读 · 2018年5月2日
Sophie Melville,Kathryn Eccles,Taha Yasseri
3+阅读 · 2018年4月5日
Nicole Novielli,Daniela Girardi,Filippo Lanubile
3+阅读 · 2018年3月17日
Iulian V. Serban,Chinnadhurai Sankar,Mathieu Germain,Saizheng Zhang,Zhouhan Lin,Sandeep Subramanian,Taesup Kim,Michael Pieper,Sarath Chandar,Nan Rosemary Ke,Sai Rajeswar,Alexandre de Brebisson,Jose M. R. Sotelo,Dendi Suhubdy,Vincent Michalski,Alexandre Nguyen,Joelle Pineau,Yoshua Bengio
10+阅读 · 2018年1月20日
Yannis Papanikolaou,Grigorios Tsoumakas
3+阅读 · 2017年9月16日
Top