zoukankan      html  css  js  c++  java
  • (四)数据清洗主要工作

    一. 数据清洗主要工作

    1. • 噪声(Noise)消除

    • 噪声包含错误值(类别型字段)及离群值(数值型字段)

    • 噪声使探勘结果有相当大的偏差,必须将噪声移除或将其做适当的处理

      2. 空值(Missing Value)填补

    • 人工填补
    • 自动填补

    二.噪声如何处理

    1.  噪声侦测方法

    • 针对类别型字段,检视其分布 (找错误值)
    • 针对数值型字段,检视其分布 (找离群值)

      •  平均值法

    • 平均值 (+-)3 * 标准差

                (1个标准差: 68%; 2个标准差: 95%; 3个标准差: 99.7%)

      • 四分位数法

    • IQR = Q3 – Q1

    • Q1 – 1.5 * IQR ~ Q3 + 1.5 * IQR

      2.噪声处理方法

    • 错误值(类别型字段)

    视为空值

    • 离群值(数值型字段)

      1.  视为空值
      2.  天花板/地板法(盖帽法) (NumericCleaner)
      3.  函数校正法 (AddExpression): 取log10, log2, ln等

    三、数据空值处理

    1. 直接忽略法:当数据有遗缺值时,则将整笔数据删除

    • 处理数据遗缺最简单的方法  
    • 搜集的数据量很多,而遗缺数据只占一小部分时,便可直接删除

    • 遗缺数据占整个字段所有数据的比例过大时(>50%),便可直接删除

    • 进行分类建模时,若数据的分类标记(Class Label)为空值,这笔数据因无法被正确分类,便可直接删除

      缺点

    • 数据遗缺比例很可观时,会造成大量数据流失

      2 转换成指示变量(Indicator Variable)

    当字段有遗缺值时,则将整个字段转换成指示变量(Indicator Variable)

    • 处理数据遗缺的特殊方法

    • 遗缺数据占整个字段所有数据的比例过大时(>50%),便可使用此法

    • 使用此法的理论基础为空值也是行为的另一种呈现

    3.人工填补

      当某会员数据的生日字段有遗缺,可打电话询问该会员,以取得其生日并加以填补

      • 了解数据遗缺原因,采用适当的值填补

      1. 性别可用身分证字号来补  
      2.  一些比例型的字段

        • 缺点

          当数据遗缺较多时,耗时且人力负担沉重

    4.自动填补

    (1)类别字段

    • 填入一个通用的常数值
      •如填入“未知/Unknown”,成为一个新的类别
    • 填入该字段的众数(Mode)
      • 缺点是不够客观
      • 可用分群的方式,分群求众数
    • 更精确作法是利用模型求出较可能的值来填入
      • 把填遗缺值的问题当作是分类的问题

    (2)数值字段

    • 填入一个通用的常数
      • 如填入0(但需Check其意义)
    • 填入该字段的整体平均值(Mean)
      • 不会对统计结果造成太大的影响
      • 缺点是不够客观
    • 可用分群的方式,分群求平均值

            • 更精确作法是利用模型求出较可能的值来填入

      • 把填遗缺值的问题当作是预测的问题

  • 相关阅读:
    「THUWC 2017」随机二分图(概率+容斥+状压dp(记忆化搜索实现))
    「THUWC 2017」在美妙的数学王国中畅游(泰勒展开+高中导数+lct)
    「PKUSC2018」神仙的游戏(border性质+NTT)
    「PKUWC2018」猎人杀(概率+容斥+分治NTT)
    [USACO19OPEN]Valleys P && JZOJ 6525【2020.4.1模拟】Valleys (并查集+平面图欧拉公式):
    iOS学习笔记32-iCloud入门
    iOS学习笔记31-从图册获取图片和视频
    iOS学习笔记30-系统服务(三)蓝牙
    iOS学习笔记29-系统服务(二)通讯录
    iOS学习笔记28-系统服务(一)短信和邮件
  • 原文地址:https://www.cnblogs.com/liyuewdsgame/p/13199257.html
Copyright © 2011-2022 走看看