zoukankan      html  css  js  c++  java
  • 数据挖掘——数据预处理

    数据预处理(Data Preprocess):通过采用数据清理、数据集成与变换以及数据规约等方法对数据预先进行处理,处理后的数据用于数据挖掘。

    在当前社会中,由于大数据、数据源不唯一等原因使得在真实数据库存放的数据存在噪声、缺失和不一致的问题。基于数据的信息挖掘在数据不能保证的情况下,挖掘得到的信息也很难具有说服力。(地基都没夯实就去建造高楼大厦谁敢住?)为了解决实际中遇到的这些问题,数据预处理技术顺势产生。常见的几种数据预处理的方式主要有:

    1.数据清洗。主要用于去除噪声数据(包括错误数据和离群数据)以及解决数据不一致问题;

    2.数据集成。通过数据整合可以将多个数据源的数据合并为一个统一数据集合。

    3.数据变换。在数据变换中常用的操作例如标准化(normalization),可以提高数据挖掘的准确性。

    4.数据规约。通过数据聚集、属性子集选择以及维度规约等方法对数据集合进行简化表示,但能够产生同样的(几乎同样的)分析结果。

    有关数据预处理技术的内容将在接下来的章节逐渐展开。

    不论你现在身处何种境地,都有选择的权利,可以让状况变得更好或者更差,往往就在一念之间。
  • 相关阅读:
    java中接口与抽象类的区别
    单例模式的懒汉式和饿汉式实现分析
    filter的原理(转)
    事务与连接池
    request对象和response对象的作用和相关方法
    java环境变量配置
    关于http
    java笔记5
    理解String的intern()方法
    用递归的方法算出给定字符串的最大连续重复字符的重复次数
  • 原文地址:https://www.cnblogs.com/zpfzb2013/p/3881028.html
Copyright © 2011-2022 走看看