zoukankan      html  css  js  c++  java
  • 【数据清洗】2012-数据清洗及其一般性系统框架

    tt

    (1)准备。包括需求分析、信息环境分析、任务定义、方法定义、基本配置,以及基于以上工作获得数据清洗方案等。通过需求分析明确信息系统的数据清洗需求,通过信息环境分析明确数据所处的信息环境特点,任务定义要明确具体的数据清洗任务目标,方法定义确定合适的数据清洗方法,基本配置完成数据接口等的配置,要形成完整的数据清洗方案,并整理归档。
          (2)检测。包括检测必需的数据预处理,并进行相似重复记录、不完整记录、逻辑错误、异常数据等数据质量问题的检测,对检测结果进行统计,以获得全面的数据质量信息,并将相关信息整理归档。
          (3)定位。包括数据质量问题定位、数据追踪分析,并根据检测结果对数据质量进行评估,分析问题数据及修正的业务影响,分析产生数据质量问题的根本原因;进而确定数据质量问题性质及位置,给出数据修正方案,并将相关信息归档。根据定位分析情况,可能需要返回“检测”。
          (4)修正。在定位分析的基础上,对检测出的实例层数据质量问题进行修正,具体包括问题数据标记、不可用数据删除、重复记录合并、缺失数据估计与填充等,并对数据修正过程进行数据世系管理。
          (5)验证。验证修正后的数据与任务定义的符合性(用到部分检测操作),如果结果与任务目标不符合,则做进一步定位分析与修正,甚至返回“准备”中调整相应准备工作。

    图1中的一般性系统框架PDLMV根据用户要求,允许从不同的阶段开始,在不同的阶段停止,以完成不同的数据清洗任务,即PDLMV是可定制的,并且各功能可单独完成。因此,PDLMV是一个柔性的、可扩展的、交互性好的、松耦合的数据清洗框架。同时,由PDLMV完成的数据处理过程,均可视为完整数据清洗过程。

  • 相关阅读:
    阻塞 io 非阻塞 io 学习笔记
    nodejs 不是单线程
    最短路径之迪杰斯特拉(Dijkstra)算法
    迷宫问题求解之“A*搜索”(二)
    迷宫问题求解之“穷举+回溯”(一)
    CnBlogs自定义博客样式
    .NET中Main函数使用小技巧
    .NET中的枚举(Enum)
    DotNetBar的使用—(界面风格)
    .NET4.5新特性async和await修饰符实现异步编程
  • 原文地址:https://www.cnblogs.com/XBWer/p/4198847.html
Copyright © 2011-2022 走看看