zoukankan      html  css  js  c++  java
  • (三)数据预处理过程简介

    一、数据预处理过程包括

    (一)Attribute Selection(字段选择)

    • Data Integration(数据整合)  多重数据源的整合问题

    • 消除数据不一致
      台币 VS. 美金
    • 消除数据重复性  
      A及B数据表都有某会员的数据

    (二)Data Cleansing(数据清洗)

    •  Wrong Value(错误值)
    •  Outlier(离群值)
    •  Missing Value(空值)

      注意:数据清洗阶段,最重要的第一步是数据质量报告,数据质量报告3张表牢记:第一,字段汇总情况表;第二,数值型字段情况表;第三,类别性字段情况表。

      

    (三) Attribute Enrichment(字段扩充)

    • 外部数据整合
    • 内部数据的统整(Data Aggregation)
         利用旧字段将其加总、统计做初步整理,使得数据更适合探勘

    (四)Data Coding(数据编码)

    • Data Transformation(数据转换)
    • Data Reduction(数据精简)
    1. Record Reduction(记录精简)
    2. Attribute Value Reduction(域值精简)
    3. Attribute Reduction(字段精简)
  • 相关阅读:
    hbase编码
    kafka常用命令
    国产十大数据库排行榜
    After Titans
    kingbase7获取唯一索引和子分区键的view
    准提道人收孔宣
    MySQL使用全文索引
    instead of触发器实现复杂视图dml和应用逻辑
    中国oracle ace名单
    第六十象 癸亥
  • 原文地址:https://www.cnblogs.com/liyuewdsgame/p/13199181.html
Copyright © 2011-2022 走看看