zoukankan      html  css  js  c++  java
  • 数据挖掘-数据清理-噪声数据

    数据清理-噪声数据

    数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。

    噪声数据

    噪声(noise)是被测量的变量的随机误差或方差。光滑数据,去除噪声方法如下。

    1.分箱(binning)

    分箱方法通过考察数据的近邻(即周围的值)来光滑有序数据值。这些有序的值被分不到一些桶或箱中。由于分箱方法考察近邻的值,因此它进行局部光滑。
    对于用箱均值光滑,箱中每一个值都被替换为箱中的均值。
    用箱中位数光滑,此时,箱中的每一个值都被替换为该箱的中位数。
    对于用箱边界光滑,给定箱中的最大和最小值同样被视为箱边界,而箱中的每一个值都被替换为最近的边界值。
    一般而言,宽度越大,光滑效果越明显。箱也可以是等宽的,其中每个箱值的区间范围是常量。分箱也可以作为一种离散化技术使用。

    2.回归(regression)

    也可以用一个函数拟合数据来光滑数据,这种技术称为回归。线性回归涉及找出拟合两个属性(或变量)的最佳直线,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩充,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。

    3.离群点分析(outlier analysis)

    可以通过如聚类来检测离群点。聚类将类似的值组织成群或簇。直观地,落在簇集合之外的值被视为离群点。

  • 相关阅读:
    递归-计算排列组合问题
    递归-字符串翻转
    递归-求字符串的子序列
    递归
    递归
    PHP开发工程师-技能树
    Graph-BFS-Fly-图的广度优先遍历-最小转机问题
    Graph-DFS-Map-图的深度优先遍历-城市地图问题
    Graph-BFS-图的广度优先遍历
    Graph-DFS-图的深度优先遍历
  • 原文地址:https://www.cnblogs.com/EnzoDin/p/10720633.html
Copyright © 2011-2022 走看看