zoukankan      html  css  js  c++  java
  • python数据探索

    数据质量分析 
    脏数据包括:缺失值;异常值;不一致的值;重复数据及含有特殊符号的数据; 
    1.缺失值处理 
    统计缺失率,缺失数 
    2.异常值处理 
    (1)简单统计量分析 
    (2)3Q原则 
    正态分布情况下,小概率事件为异常值 
    不服从正太分布的,可以用原离平均值多少倍标准差来分析 
    (3)箱线图分析 
    使用describe()描述

    主要数据探索函数 
    1.Pandas常用函数总结

    导入数据

    导出数据

    查看、检查数据

    数据选取

    数据清理

        dataframe处理NAN值

        data_3=data_3.where(data_3.notnull(),0)

       dataframe类型转换

        data_3['Var5']=data_3['Var5'].astype(float)

    数据处理:Filter 、Sort 和 GroupBy

     
    查看具体有哪几个值
    ids = [1,4,3,3,4,2,3,4,5,6,1]
    news_ids = list(set(ids))
    news_ids.sort(ids.index)

    数据合并、数据统计 

    2.拓展统计特征函数

    累计统计特征函数

      • cumsum :依次给出前1-n个数的和
      • cumprod: 依次给出前1-n个数的积
      • cummax: 依次给出前1-n个数的最大值
      • cummin: 依次给出前1-n个数的最小值
      • rolling_sum(): 总和(按列)
      • rolling_mean(): 算数平均值
      • rolling_var(): 方差
      • rolling_std(): 标准差
      • rolling_corr(): 相关系数矩阵
      • rolling_cov(): 协方差矩阵
      • rolling_skew():偏度(三阶矩)
      • rolling_kurt(): 峰度(四阶矩)
         

    参考:https://www.cnblogs.com/yaowentao/p/8882386.html

  • 相关阅读:
    openstack常见问题
    30 个 Openstack 经典面试问题和解答
    linux系统内存爆满的解决办法!~
    iostat详解
    线上应用故障排查之一:高CPU占用
    对OpenStack运维架构的总结(转)
    zabbix基本监控各指标简解
    创建 OpenStack云主机
    centos7系统中忘记了root管理员账号密码的解决方式(转)
    MySQL高可用架构之MHA
  • 原文地址:https://www.cnblogs.com/yoyowin/p/13360283.html
Copyright © 2011-2022 走看看