zoukankan      html  css  js  c++  java
  • Python数据分析与展示[第三周](pandas数据特征分析单元8)

    数据理解#####
    • 基本统计
    • 分布/累计统计
    • 数据特征
    • 数据挖掘
    数据排序#####

    操作索引的排序
    .sort_index() 在指定轴上排序,默认升序

    参数

    • axis=0 column
    • ascending=True 升序

    .sort_values()

    参数同上
    +by 对应的(axis)轴上某一个索引或者索引列表 (会相应的改变行)

    NAN空 统一放到排序末尾

    基本统计函数####

    方法 说明
    .sum() 和,默认0轴下同
    .count() 计算非NAN的数量
    .mean() .median() 计算均值,中位数
    .var().std() 方差标准差
    .min().max() 最小值最大值
    .describe() 万能汇总,输出Series类型

    对于二维的Dataframe 也可以调用describe
    计算每一列统计值的信息
    b.describe().ix['max'] 发挥一横行的数据 返回Series 获得所有列的max
    b.describe()[2] 获得第2行的describe

    累积运算###

    累计统计分析函数
    .cumsum() 依次给出前1,2.。。。n个数的和
    .cumprod() 积
    .cummin() 最小值
    .cummax() 最大值

    如果是DataFrame 的话就是沿着列方向计算的

    适用于Series DataFrame 滚动计算函数
    滚动窗口函数

    方法 说明
    .rolling(w).sum() 依次计算相邻w各元素的和
    .rolling(w).mead() 均值
    .rolling(w).var() std min max 标准差方差最小(大)值

    b.rolling(2).sum()
    在当前的位置,与前一个元素相加(没有就补nan)

    数据的相关分析###

    XY,如何判断相关性 协方差方法
    协方差
    (cov(X,Y)=frac{sum_{i=1}^n(X_i-ar{X})(Y_i-ar{Y})}{n-1})

    Pearson相关系数
    (r=frac{sum_{i=1}n(x_i-ar{x})(y_i-ar{y})}{sqrt{sum_{i=1}n(x_i-ar{x})2}sqrt{sum_{i=1}n(y_i-ar{y})^2}} )

    适用于 Series DataFrame
    .cov() 计算协方差矩阵
    .corr() 计算相关系数矩阵,Pearson Spearman Kendall系数等

    a.corr(b)计算相关性

  • 相关阅读:
    windows 按时自动化任务
    Linux libusb 安装及简单使用
    Linux 交换eth0和eth1
    I.MX6 GPS JNI HAL register init hacking
    I.MX6 Android mmm convenient to use
    I.MX6 GPS Android HAL Framework 调试
    Android GPS GPSBasics project hacking
    Python windows serial
    【JAVA】别特注意,POI中getLastRowNum() 和getLastCellNum()的区别
    freemarker跳出循环
  • 原文地址:https://www.cnblogs.com/sfzyk/p/6877952.html
Copyright © 2011-2022 走看看