zoukankan      html  css  js  c++  java
  • 3-Pandas数据初探索之常用的描述性统计函数、汇总函数

    一、常用的描述性统计函数 
    函数 作用 函数 作用
    count 非缺失样本的数量 sum 求和
    mean 均值 mad 平均绝对偏差(Mean absolute deviation)
    median 中位数 min 最小值
    max 最大值 mode 众数
    abs 绝对值 prod 乘积
    std 标准差 var 无偏方差
    sem 平均标准误差 skew 偏度(三阶矩)
    kurt 峰度(四阶矩) quantile 分位数
    cumsum 累计求和 cumprod 累积
    cummax 累计最大值 cummin 累积最小值

     

    二、汇总函数 

    (1)describe():查看各个特征的均值、标准差、最小值、最大值即分位数,对样本数据量进行统计,默认仅对数值型数据进行统计,也可通过上一节数据筛选中所说的include和exclude来设定包括或是剔除哪些类型的特征

      例如:>>>df.describe(include=['object'])

    需要注意的是

    • describe()返回的对象也是一个DataFrame类型,所以我们是可以根据自身需求提取需要的汇总量;
    • describe()也可以对非数值型数据进行统计,只是统计指标不同而已.

      例如:

    >>>df['grade'].describe()
    count 68
    unique 6
    top  B
    freq 18
    Name:grade,dtype:object

    (2)info():显示各个特征数据类型、非空值数量、总体样本量、占用的内存空间;

      不关心其中缺失值的情况则可设置null_counts参数的值为False

      >>>df.info(null_counts = False)

      若不想具体查看特征的每个变量的情况,则可设置verbose参数的值为False;

      >>>df.info(verbose=False)

    (3)cov():协方差,描述各个特征之间的相关关系

      >>>df.cov()

      即:若有n个特征,将生成一个n*n的矩阵

      需要注意的是:协方差的绝对值不反应线性相关的程度

    (4)corr():相关系数。表示线性相关的方向和相关程度,其值域为[-1,1]

      >>>df.corr()

  • 相关阅读:
    数据库函数(备忘)
    C语言实现统计字符个数
    用链表做一个学生管理系统
    深入理解 JSON
    从 JDK 源码角度看 Object
    eclipse + maven搭建SSM框架
    Oracle12c版64位客户端安装步骤(32位安装步骤一样)
    Oracle12C版本安装步骤
    ArcGIS破解配置及oracle文件配置
    ArcGIS_Lisence安装步骤
  • 原文地址:https://www.cnblogs.com/Cheryol/p/13381894.html
Copyright © 2011-2022 走看看