如何系统地学习Python 中 matplotlib, numpy, scipy, pandas?

最近在学习python绘制图形的相关知识,学习到了这几个库,所以想请教一下各位知友。希望用python来做数据挖掘相关的任务。 想问问各位知友,pyt…
关注者
16,554
被浏览
3,096,561
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

数据 NaN 值排查,统计,排序

data.isnull()

  • data 是一个 dataframe 的结构

np.sum(data.isnull())

  • 找到缺失值的总数

data.sort_values()

  • 按照某个列进行数据的排序,
  • 或者按照某两个列进行排序

四种基本统计方法

  • 最大值 np,max() ,最小值 np.min() ,均值 np.mean() ,分位数 np.quantile()

分组 data.groupby

  • 分组: df.groupby() ,按照某个字段进行分组;返回一个分组后的对象df.groupby(by=[...])df.groupby(by=[...]) 可以按照多个字段进行分组,形成层次化的索引结


聚合 data.agg()

  • 聚合方法灵活,能够对分组对象进行相同的聚合,也可以选择不同的聚合方法
  • 聚合 data.agg([np.mean, np.max]) 聚合的是统计方法,例如求最大值和最小值的方法;注意进行聚合的数据首先是要进行分组才能够进行聚合。



  • 聚合还可以根据具体的字段通过字典的方式设置不同的统计方法: grouped.agg({字段名:统计方法名})



  • apply 可以进行聚合运算,也可以进行按行运算



  • apply 的参数还可以是一个 lambda 函数对 df 中的某个 series 进行操作



transform

  • 返回与数据同样长度的行,无法进行聚合



pd.pivot_table() :