zoukankan      html  css  js  c++  java
  • 数据处理

    一  缺失值处理

      1 删除 dropna

      2 填充 / 替换 

        1)用中位数,众数,平均数

        2)用临近值替换 fillna / replace

        3)lagrange插值法

            from scipy.interpolate import lagrange

            可以写个函数,实现用lagrange差值

    二  异常值处理

      1 找到异常值

        1)3σ原则

          在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴

          3σ原则为

          数值分布在(μ-σ,μ+σ)中的概率为0.6827

          数值分布在(μ-2σ,μ+2σ)中的概率为0.9545

          数值分布在(μ-3σ,μ+3σ)中的概率为0.9973

          可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%

        2)箱型图分析

          相对来说箱型图可能用的比较多,而且,3σ原则特别极端才会显示。

      2 处理异常值

        采用缺失值一样的方式处理

    三 数据标准化

      1)0-1标准化

        (series - min)/ (max-min)

        标准化数据
        经过处理的数据符合标准正态分布,即均值为0,标准差为1

      2)Z-score 标准化

        Z分数(z-score),是一个分数与平均数的差再除以标准差的过程 → z=(x-μ)/σ,其中x为某一具体分数,μ为平均数,σ为标准差

        Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数,反之则为正数
         数学意义:一个给定分数距离平均数多少个标准差

        什么情况用Z-score标准化:

        在分类、聚类算法中,需要使用距离来度量相似性的时候,Z-score表现更好

    四  数据连续属性离散化  discretization

      1)等宽法

        pd.cut(x,bins,labels)

          注意:1)x 为series,返回值 类型 是series。 x为列表,返回值类型 为 Categorical。这里我们用到的是 Categorical,因为有codes属性和          categories属性

             2)bins 可以接受int,和 列表,代表不同含义。

             3) labels 可以设置不同组的名称

      2)等频法

        pd.qcut()

          每个区间是等数量的。

        

  • 相关阅读:
    使用“.yml”文件缩进需要注意的问题
    ubuntu忘记用户密码解决方法
    springboot整合mybatis使用xml映射文件和使用注解两种方式的切换
    腾讯课堂目标2017高中数学联赛基础班-2作业题解答-12
    腾讯课堂目标2017高中数学联赛基础班-2作业题解答-11
    2016猿辅导初中数学竞赛训练营作业题解答-14
    腾讯课堂目标2017初中数学联赛集训队作业题解答-11
    腾讯课堂目标2017高中数学联赛基础班-2作业题解答-10
    2016猿辅导初中数学竞赛训练营作业题解答-13
    腾讯课堂目标2017初中数学联赛集训队作业题解答-10
  • 原文地址:https://www.cnblogs.com/654321cc/p/11917305.html
Copyright © 2011-2022 走看看