zoukankan      html  css  js  c++  java
  • 【数据清洗】2013-数据质量及数据清洗方法

    • 数据质量问题分类

    image

    本文主要讨论实例层数据质量问题

    • 数据质量评价(12个维度)

    1)数据规范(Data specification):对数据标准、 数据模型、业务规则、元数据和参考数据进行有关存在性、完整性、质量及归档的测量标准;
          2)数据完整性准则(Data integrity fundamentals):对数据进行有关存在性、有效性、结构、内容及其他基本数据特征的测量标准;
          3)重复(Duplication):对存在于系统内或系统间的特定字段、记录或数据集意外重复的测量标准;
          4)准确性(Accuracy):对数据内容正确性进行测量的标准;
          5)一致性和同步(Consistency and synchronization):对各种不同的数据仓库、应用和系统中所存储或使用的信息等价程度的测量,以及使数据等价处理流程的测量标准;
          6)及时性和可用性(Timeliness and availability):在预期时段内数据对特定应用的及时程度和可用程度的测量标准;
          7)易用性和可维护性(Ease of use and maintainability):对数据可被访问和使用的程度,以及数据能被更新、维护和管理程度的测量标准;
          8)数据覆盖(Data coverage):相对于数据总体或全体相关对象数据的可用性和全面性的测量标准;
          9)表达质量(Presentation quality);如何进行有效信息表达以及如何从用户中收集信息的测量标准;
          10)可理解性、相关性和可信度(Perception,relevance and trust):数据质量的可理解性和数据质量中执行度的测量标准,以及对业务所需数据的重要性、实用性及相关性的测量标准;
          11)数据衰变(Data decay):对数据负面变化率的测量标准;
          12)效用性(Transactability):数据产生期望业务交易或结果程度的测量标准。
          在评估项目数据质量过程中,需先选取几个合适的数据质量维度,再针对每个所选维度,制定评估方案,选择合适的评估手段进行测量,最后合并和分析所有质量评估结果。

    • 清洗方法

           1)缺失数据处理

    2)相似重复对象检测

    3)异常数据处理

    4)逻辑错误检测

    5)不一致数据

  • 相关阅读:
    【转自百度贴吧】把古诗最后三个字改为“日了狗”,看谁最有才!
    计划!
    [BZOJ2424][HAOI2010]订货
    [BZOJ1026][SCOI2009]windy数
    【作文】高考之外
    [AYYZVijos1761]运输问题
    [BZOJ1047][HAOI2007]理想的正方形
    [NOIP2015]代码
    新的独立博客
    不忘初心,方得始终——NOIP2016前的感悟
  • 原文地址:https://www.cnblogs.com/XBWer/p/4198932.html
Copyright © 2011-2022 走看看