zoukankan      html  css  js  c++  java
  • (四)数据清洗主要工作

    一. 数据清洗主要工作

    1. • 噪声(Noise)消除

    • 噪声包含错误值(类别型字段)及离群值(数值型字段)

    • 噪声使探勘结果有相当大的偏差,必须将噪声移除或将其做适当的处理

      2. 空值(Missing Value)填补

    • 人工填补
    • 自动填补

    二.噪声如何处理

    1.  噪声侦测方法

    • 针对类别型字段,检视其分布 (找错误值)
    • 针对数值型字段,检视其分布 (找离群值)

      •  平均值法

    • 平均值 (+-)3 * 标准差

                (1个标准差: 68%; 2个标准差: 95%; 3个标准差: 99.7%)

      • 四分位数法

    • IQR = Q3 – Q1

    • Q1 – 1.5 * IQR ~ Q3 + 1.5 * IQR

      2.噪声处理方法

    • 错误值(类别型字段)

    视为空值

    • 离群值(数值型字段)

      1.  视为空值
      2.  天花板/地板法(盖帽法) (NumericCleaner)
      3.  函数校正法 (AddExpression): 取log10, log2, ln等

    三、数据空值处理

    1. 直接忽略法:当数据有遗缺值时,则将整笔数据删除

    • 处理数据遗缺最简单的方法  
    • 搜集的数据量很多,而遗缺数据只占一小部分时,便可直接删除

    • 遗缺数据占整个字段所有数据的比例过大时(>50%),便可直接删除

    • 进行分类建模时,若数据的分类标记(Class Label)为空值,这笔数据因无法被正确分类,便可直接删除

      缺点

    • 数据遗缺比例很可观时,会造成大量数据流失

      2 转换成指示变量(Indicator Variable)

    当字段有遗缺值时,则将整个字段转换成指示变量(Indicator Variable)

    • 处理数据遗缺的特殊方法

    • 遗缺数据占整个字段所有数据的比例过大时(>50%),便可使用此法

    • 使用此法的理论基础为空值也是行为的另一种呈现

    3.人工填补

      当某会员数据的生日字段有遗缺,可打电话询问该会员,以取得其生日并加以填补

      • 了解数据遗缺原因,采用适当的值填补

      1. 性别可用身分证字号来补  
      2.  一些比例型的字段

        • 缺点

          当数据遗缺较多时,耗时且人力负担沉重

    4.自动填补

    (1)类别字段

    • 填入一个通用的常数值
      •如填入“未知/Unknown”,成为一个新的类别
    • 填入该字段的众数(Mode)
      • 缺点是不够客观
      • 可用分群的方式,分群求众数
    • 更精确作法是利用模型求出较可能的值来填入
      • 把填遗缺值的问题当作是分类的问题

    (2)数值字段

    • 填入一个通用的常数
      • 如填入0(但需Check其意义)
    • 填入该字段的整体平均值(Mean)
      • 不会对统计结果造成太大的影响
      • 缺点是不够客观
    • 可用分群的方式,分群求平均值

            • 更精确作法是利用模型求出较可能的值来填入

      • 把填遗缺值的问题当作是预测的问题

  • 相关阅读:
    java依赖注入
    Mac OS 中的 Python(和 NumPy)开发环境设置
    英语巴菲
    经济学原理
    You are beautiful
    大数据之tachyon(未完版)
    机器学习温和指南
    机器学习之回归
    Mac 命令
    批处理--批量打开程序&批量关闭程序
  • 原文地址:https://www.cnblogs.com/liyuewdsgame/p/13199257.html
Copyright © 2011-2022 走看看