zoukankan      html  css  js  c++  java
  • 如何评估数据质量?

       数据质量评估

    在做了近一个多月的数据质量评估方案工作,基本实现了从产出原始数据、数据清洗、入库有效数据等阶段,从对质量没有任何概念到实现基本的指标展示,也算是从设计到代码到展示的流程跑通,在一定程度已经能体现公司目前的数据质量

    1.为什么做数据质量?

    公司数据是从Excel挖掘出来的,不确定性与未知性,准确性没有评判的标准,提供给其他部门不能直接体现数据的好坏,做这件事是非常有必要2

    2.从0开始思考怎么做数据质量

      对于大多数公司的数据来说,数据格式较为固定,埋点数据或者业务数据都是进行专门的定义,比如商品id为数字,性别用0,1表示,但对于挖掘或者提取到的数据来说,字段的类型格式、长度及语义都可能存在差异,这就需要数据清洗重新规范格式。

    3.数据质量计算及流程

    离线流程:

    实时:

     5.思考指标与维度

     

     6.实时的数据质量监控十分有必要,在清洗入仓时进行指标叠加统计监控,如果某些指标超出某些范围,直接前台报警,业务人员进行数据源排查、

    实时方面在做全局去重及一些复杂指标是一个比较难处理的问题,因为全局去重会去历史数据进行碰撞与实时性冲突,目前想到的是晚上对前一天的入库数据进行离线跑批计算,

    再就是使用redis结合bitmap进行去重(还未实现,大数据量可能会影响结果丢失掉数据)

  • 相关阅读:
    使用SQLite数据库实现登陆注册
    使用高德地图api(一)获取调试版和发布版SHA1,包名
    三个痛点简析与启蒙
    统计字符数,行数
    签到app需求分析
    三位数的四则运算
    蒸汽朋克与游戏的结合————《机械迷城》
    结对项目——My note(四)
    结对项目——My note(三)
    结对项目——My note(二)
  • 原文地址:https://www.cnblogs.com/hejunhong/p/12000216.html
Copyright © 2011-2022 走看看