zoukankan      html  css  js  c++  java
  • 数据预处理

    方法:

    l  数据清理(Clearing)

    l  数据集成(Integration)

    l  数据变换(Transformation)

    l  数据归约/降维(Reduction)

    l  数据增维(expand)

    l  特征提取(generate)

     

    (1)数据清理 -- 空缺值处理

           a)使用最可能的值填充空缺值,比如可以用最小二乘回归模型或判定树归纳等确定空缺值。这类方法依靠现有的数据信息来推测空缺值,使空缺值有更大的机会保持与其他属性之间的联系。

           b)用一个全局常量替换空缺值,使用属性的平均值填充空缺值或将所有元组按某些属性分类,然后用同一类中属性的平均值填充空缺值。如果空缺值很多,这些方法可能误导挖掘结果。

    (2)数据清理 -- 噪声数据处理

           噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。常用分箱、回归、计算机检查和人工检查结合、聚类等方法进行噪音处理。

                   

    (3)数据变化

           a)数据平滑 -- 分箱(按中值/平均值/边值)

           b)数据概念化

           c)规范化

                     

    (4)数据归约(离散化)

           去掉可分性不强和冗余的特征。常用维归约、数据压缩、数值归约等方法实现。

           PCA降维,principal component analysis,即主成成分分析

       参考地址:http://www.cnblogs.com/sweetyu/p/5085798.html

     

  • 相关阅读:
    【转】Redis和Memcache对比及选择
    Ubuntu下php环境的搭建
    【HTML和CSS】总结
    【python】 The different between ' %r ' and ' %s '
    Learn Python The Hard Way
    Vim 插件配置及快捷键
    sublime-text 插件配置
    mysql-5.7在CentOS-7下的rpm安装
    oracle pdb基本管理
    Oracle 12cR2 Installation On CentOS-7
  • 原文地址:https://www.cnblogs.com/sweetyu/p/5085268.html
Copyright © 2011-2022 走看看