zoukankan      html  css  js  c++  java
  • 数据预处理

    方法:

    l  数据清理(Clearing)

    l  数据集成(Integration)

    l  数据变换(Transformation)

    l  数据归约/降维(Reduction)

    l  数据增维(expand)

    l  特征提取(generate)

     

    (1)数据清理 -- 空缺值处理

           a)使用最可能的值填充空缺值,比如可以用最小二乘回归模型或判定树归纳等确定空缺值。这类方法依靠现有的数据信息来推测空缺值,使空缺值有更大的机会保持与其他属性之间的联系。

           b)用一个全局常量替换空缺值,使用属性的平均值填充空缺值或将所有元组按某些属性分类,然后用同一类中属性的平均值填充空缺值。如果空缺值很多,这些方法可能误导挖掘结果。

    (2)数据清理 -- 噪声数据处理

           噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。常用分箱、回归、计算机检查和人工检查结合、聚类等方法进行噪音处理。

                   

    (3)数据变化

           a)数据平滑 -- 分箱(按中值/平均值/边值)

           b)数据概念化

           c)规范化

                     

    (4)数据归约(离散化)

           去掉可分性不强和冗余的特征。常用维归约、数据压缩、数值归约等方法实现。

           PCA降维,principal component analysis,即主成成分分析

       参考地址:http://www.cnblogs.com/sweetyu/p/5085798.html

     

  • 相关阅读:
    ajax提交转码解码
    关于idea开发工具常用的快捷键
    oracle 查询某个时间段数据
    hibernate : object references an unsaved transient instance 问题
    log4j日志
    JS关键字 import
    代码正常,junit却报错原因及解决方法
    hdu 5868 Polya计数
    hdu 5893 (树链剖分+合并)
    hdu 5895 广义Fibonacci数列
  • 原文地址:https://www.cnblogs.com/sweetyu/p/5085268.html
Copyright © 2011-2022 走看看