zoukankan      html  css  js  c++  java
  • 【数据清洗】2013-数据质量及数据清洗方法

    • 数据质量问题分类

    image

    本文主要讨论实例层数据质量问题

    • 数据质量评价(12个维度)

    1)数据规范(Data specification):对数据标准、 数据模型、业务规则、元数据和参考数据进行有关存在性、完整性、质量及归档的测量标准;
          2)数据完整性准则(Data integrity fundamentals):对数据进行有关存在性、有效性、结构、内容及其他基本数据特征的测量标准;
          3)重复(Duplication):对存在于系统内或系统间的特定字段、记录或数据集意外重复的测量标准;
          4)准确性(Accuracy):对数据内容正确性进行测量的标准;
          5)一致性和同步(Consistency and synchronization):对各种不同的数据仓库、应用和系统中所存储或使用的信息等价程度的测量,以及使数据等价处理流程的测量标准;
          6)及时性和可用性(Timeliness and availability):在预期时段内数据对特定应用的及时程度和可用程度的测量标准;
          7)易用性和可维护性(Ease of use and maintainability):对数据可被访问和使用的程度,以及数据能被更新、维护和管理程度的测量标准;
          8)数据覆盖(Data coverage):相对于数据总体或全体相关对象数据的可用性和全面性的测量标准;
          9)表达质量(Presentation quality);如何进行有效信息表达以及如何从用户中收集信息的测量标准;
          10)可理解性、相关性和可信度(Perception,relevance and trust):数据质量的可理解性和数据质量中执行度的测量标准,以及对业务所需数据的重要性、实用性及相关性的测量标准;
          11)数据衰变(Data decay):对数据负面变化率的测量标准;
          12)效用性(Transactability):数据产生期望业务交易或结果程度的测量标准。
          在评估项目数据质量过程中,需先选取几个合适的数据质量维度,再针对每个所选维度,制定评估方案,选择合适的评估手段进行测量,最后合并和分析所有质量评估结果。

    • 清洗方法

           1)缺失数据处理

    2)相似重复对象检测

    3)异常数据处理

    4)逻辑错误检测

    5)不一致数据

  • 相关阅读:
    js里的稀疏数组
    JS中二进制与十进制的相互转换
    【leetcode-03】给定一个字符串,请你找出其中不含有重复字符的最长子串的长度
    JavaScipt30(第二十二个案例)(主要知识点:getBoundingClientRect)
    JavaScipt30(第十八个案例)(主要知识点:Array.prototype.map)
    JavaScipt30(第十个案例)(主要知识点:选中一个数组中间相连部分进行操作的一种思路)
    JavaScipt30(第八个案例)(主要知识点:canvas)
    Lydsy2017省队十连测
    几个多项式的题
    poj3294Life Forms
  • 原文地址:https://www.cnblogs.com/XBWer/p/4198932.html
Copyright © 2011-2022 走看看