R语言和表数据分析

2017 年 7 月 23 日 数萃大数据 史春奇

【数萃大数据】公众号又开办了一个新栏目,之后我们每周末会为大家分享各种趣闻趣事名人好书

我们将连续转载史春奇老师高品质的推文。感谢史春奇老师的授权以及对数萃大数据学院的大力支持!






R语言发展之快, 已经连续几年夺取数据分析第一把交椅!


最近几年, 对于表数据分析有一些常见的问题, 譬如: 缺失值(Missing), 奇异值(Outlier)(参考 “一个奇异值的江湖 -- 经典统计观” 和 “一个奇异值的江湖 -- 机器学习观”), 非平衡数据(Imbalanced)(参考 “非均衡数据处理--如何学习?” 和  “非均衡数据处理--如何评价?”),数据转换(Transformation) (参考 “数据变换”),  特征选择(Feature Selection)(参考 “特征选择, 经典三刀”)等等。 


如何利用R语言, 把这些数据处理,分析,可视化的流程结合起来, 建立一个交互式数据分析平台?  为什么要一个交互式数据分析平台呢? 具体可以参考前面的讲述 “Shiny: R语言来建立开源交互式数据分析微服务的神器” !






那么在整个过程中的每个步骤, 有哪些R语言包可以应用呢?



R语言包



缺失值(Missing)


主要强调了常见方法的同时, 要注重缺失值的可视化! 这在对哪些缺失值, 和说服采集更多数据的时候特别有用。 






奇异值(Outlier)


特别强调统计的ESD方法, 或者说Grubbs' test的尝试。 当然分组数据的异常要利用Dixon‘ Q Test。 






数据转换(Transformation)


强调一个经验公式, 根据数据频率分布转换函数的对称性(y=x对称)选择处理函数。 





非平衡数据(Imbalanced)


强调样本方法Cost-Sensitive算法同时尝试!




特征选择(Feature Selection)


强调三刀都要砍一砍!




训练和评价(Training & Evaluation)


强调大数据之大, 不光光是数据量大, 也可能是计算量大, 如何利用好平行来提速, CPU并行和GPU并行,解决计算量大的问题!




可视化和解释(Visualization & Interpretation)


强调利用一些基于javascript的交互式可视化, 可以做到重点突出和层次感




交互服务 (Interactive Service)


基于Shiny可以创建一个交互式服务!从前台到后台, 一应俱全~





快的交互!


最后强调, 基于Shingy 交互的目的之一就是容易理解), 天下武功, 无坚不摧, 唯快不破! 




更为详细的解释(50页PPT)请点击下方 “阅读原文


小结, 给出了一个表数据分析的流程中可以选择的R语言包, 让你快速的构建一个数据分析微服务。 让老板觉得你的快,就是他的钱







欢迎参加【杭州站】Python大数据分析培训

8月18日-22日


扫描下方二维码了解更多






登录查看更多
0

相关内容

【2020新书】实战R语言4,323页pdf
专知会员服务
102+阅读 · 2020年7月1日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
93+阅读 · 2020年6月28日
商业数据分析,39页ppt
专知会员服务
165+阅读 · 2020年6月2日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
118+阅读 · 2020年5月9日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
197+阅读 · 2020年3月12日
R语言数据挖掘利器:Rattle包
R语言中文社区
21+阅读 · 2018年11月17日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
102+阅读 · 2020年7月1日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
93+阅读 · 2020年6月28日
商业数据分析,39页ppt
专知会员服务
165+阅读 · 2020年6月2日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
118+阅读 · 2020年5月9日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
197+阅读 · 2020年3月12日
相关资讯
R语言数据挖掘利器:Rattle包
R语言中文社区
21+阅读 · 2018年11月17日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员