zoukankan      html  css  js  c++  java
  • INFORMATICA 的调优之一 源数据的优化

     5W1H法来实现源数据的优化

    做数据仓库项目的朋友都能感到数据质量和数据抽取展现的性能是整个数据仓库项目的重点。下面谈谈我在DW项目中处理源数据质量问题的5W1H方法。

     

    5W : WHO ,WHAT,WHY,WHEN,WHERE

     

    WHO:(谁来对源数据负责)

    ETL抽取的数据各种各样,有些是按业务,有些是按区域,针对源数据的管理一定要在一开始就对源数据按规则分出对应的责任人,一般刚开始与业务负责人,DM确定好具体的数据项后,就可以按数据类别比如RMDB,FLATFILE等来确定具体的联系人,联系方式。

     

    WHAT:(源数据的业务含义)

    源数据的具体业务含义由对应的业务负责人来确定,这点对DM的设计很重要。

     

    WHY:(为什么要抽取这个数据到DW

     

    WHEN: (数据的生命周期多久,多久需要更新,有无抽取时间限制)

     

    WHERE:(源数据放在什么地方来抽取,是RMDB还是指定路径下的 FLATFILE,还是URL WEBSITE)一般为了保证源数据的抽取质量能先预处理到DB中的尽量先到DB中,这样的数据的处理信息会存到元数据知识库,便于确保数据质量。)

     

    HOW: (如何抽到DW) 这里面主要考虑源数据存储的是否有序,如果前面5W做好了,这里面的源数据质量应该没问题,这一步主要考虑能否在缓冲区建立有效索引,对文件类型的源数据做基本清洗工作等。

  • 相关阅读:
    Spring整合CXF之添加拦截器
    Spring整合CXF之发布WebService服务
    CXF添加自定义拦截器
    cxf处理一些Map等复杂类型
    webservice执行过程深入理解
    谈谈房车
    关于贷款消费
    记一次玩比特币的经历
    那年K城暑期工
    SpringBoot整合Xxl-Job
  • 原文地址:https://www.cnblogs.com/tdskee/p/5803702.html
Copyright © 2011-2022 走看看