zoukankan      html  css  js  c++  java
  • 数据质量检测

    完整性

    1.Row Count 比较:

        1). 增量的ETL job

        2). 错误的ETL

        3). 在开发过程中容易丢失的测试:对每一个表run test case 表容量;(Year, Month, Week)

    2. Row Trend 分析:数据总数和历史趋势不一致。

       1). source的异常变化

       2). ETL job和脚本中的异常update和delete操作。

    • 测试:分析总行数的趋势; 一些重要的列看下趋势还要看下ditnct;最好看下NULL值 (AVG Row count/7 days)(Row count/day)(Trend/3 days)

    3. 数据刷新: 数据源的稳定性和失败的job

              测试: 检查source和target运行时间

    一致性

    1. ETL 逻辑:数据转换清洗中的准确性

        1) 数据源和目标db的不一致
        2) 业务逻辑的不正确(add or update a measure, attribute 等等)
        3) 丢失外键
        4) 维度表和事实表中重复记录

    2. Cube 多位数据集
       1) 错误的hierarchy
       2) measures 不符合业务逻辑
       3) kpi 逻辑不正确

    准确性

    1. 数据验证
         1) 表结构的改变
         2) 列长改变引起的不一致
         3) 数据类型不正确
    2. 业务逻辑的验证
        1) 维度表的时效性,一般是由于维度变化引起的。
        2) 一些小于0%或者>100%的异常
        3) 一些不期待的负值
       4) ETL中一些错误的mapping逻辑
       5) Email地址明显的错误, 年龄,邮政编码等
    3. 用户测试情景
      1) 用户query结果和业务不一致
      2) 不同系统的报表结果不一样

  • 相关阅读:
    团队冲刺个人总结第二天
    Gym
    Codeforces Round #162 (Div. 2) A~D 题解
    Wormholes 虫洞 BZOJ 1715 spfa判断负环
    修剪草坪 单调队列优化dp BZOJ2442
    没有上司的舞会 树形dp
    餐巾计划问题 费用流
    最小路径覆盖问题 最大流
    [JSOI2007]麻将 模拟 BZOJ1028
    CF702F T-Shirts FHQ Treap
  • 原文地址:https://www.cnblogs.com/Jesse-Li/p/12897155.html
Copyright © 2011-2022 走看看