zoukankan      html  css  js  c++  java
  • Missing points processing缺失值处理

    1.直接删除----适合缺失值数量较小,并且是随机出现的,删除它们对整体数据影响不大的情况

    2.使用一个全局常量填充---譬如将缺失值用“Unknown”等填充,但是效果不一定好,因为算法可能会把它识别为一个新的类别,一般很少用

    3.使用均值或中位数代替----优点:不会减少样本信息,处理简单。缺点:当缺失数据不是随机数据时会产生偏差.对于正常分布的数据可以使用均值代替,如果数据是倾斜的,使用中位数可能更好。

    4.插补法

      1)随机插补法----从总体中随机抽取某个样本代替缺失样本
      2)多重插补法----通过变量之间的关系对缺失数据进行预测,利用蒙特卡洛方法生成多个完整的数据集,在对这些数据集进行分析,最后对分析结果进行汇总处理
      3)热平台插补----指在非缺失数据集中找到一个与缺失值所在样本相似的样本(匹配样本),利用其中的观测值对缺失值进行插补。
        优点:简单易行,准去率较高
        缺点:变量数量较多时,通常很难找到与需要插补样本完全相同的样本。但我们可以按照某些变量将数据分层,在层中对缺失值实用均值插补
      4)拉格朗日差值法和牛顿插值法(简单高效,数值分析里的内容)
    5.建模法
    可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。例如,利用数据集中其他数据的属性,可以构造一棵判定树,来预测缺失值的值。

    imputation methods:
    mean imputation; single imputation; multiple imputation; maximum likelihood. 
    线性插值。牛顿差值;拉格朗日差值。

    References:

    1. 缺失值处理(前面两种方法偏向于统计学)

    2. https://www.zhihu.com/question/22320408/answer/141973314
    3. https://www.kaggle.com/residentmario/simple-techniques-for-missing-data-imputation
  • 相关阅读:
    Core Data
    scrollViews
    网络通信
    UIView
    textView取消键盘
    AFNetworking转载
    多线程
    css3[转载][菜单导航] 带有记忆功能的多页面跳转导航菜单
    jQuery翻牌或百叶窗效果
    jQuery联动日历(三)完成
  • 原文地址:https://www.cnblogs.com/dulun/p/13531051.html
Copyright © 2011-2022 走看看