zoukankan      html  css  js  c++  java
  • INFORMATICA 的调优之一 源数据的优化

     5W1H法来实现源数据的优化

    做数据仓库项目的朋友都能感到数据质量和数据抽取展现的性能是整个数据仓库项目的重点。下面谈谈我在DW项目中处理源数据质量问题的5W1H方法。

     

    5W : WHO ,WHAT,WHY,WHEN,WHERE

     

    WHO:(谁来对源数据负责)

    ETL抽取的数据各种各样,有些是按业务,有些是按区域,针对源数据的管理一定要在一开始就对源数据按规则分出对应的责任人,一般刚开始与业务负责人,DM确定好具体的数据项后,就可以按数据类别比如RMDB,FLATFILE等来确定具体的联系人,联系方式。

     

    WHAT:(源数据的业务含义)

    源数据的具体业务含义由对应的业务负责人来确定,这点对DM的设计很重要。

     

    WHY:(为什么要抽取这个数据到DW

     

    WHEN: (数据的生命周期多久,多久需要更新,有无抽取时间限制)

     

    WHERE:(源数据放在什么地方来抽取,是RMDB还是指定路径下的 FLATFILE,还是URL WEBSITE)一般为了保证源数据的抽取质量能先预处理到DB中的尽量先到DB中,这样的数据的处理信息会存到元数据知识库,便于确保数据质量。)

     

    HOW: (如何抽到DW) 这里面主要考虑源数据存储的是否有序,如果前面5W做好了,这里面的源数据质量应该没问题,这一步主要考虑能否在缓冲区建立有效索引,对文件类型的源数据做基本清洗工作等。

  • 相关阅读:
    架设某大型网站服务器之全部过程
    利用js实现页面关闭时发送http请求
    用jquery解析JSON数据的方法
    在创业公司工作四年,如何赚百万
    一个http请求的详细过程
    VIM 查找替换命令的使用
    swfobject
    获取并显示某目录下的图片
    Windows下架设Subversion服务器
    OA系统概念(办公自动化系统)
  • 原文地址:https://www.cnblogs.com/tdskee/p/5803702.html
Copyright © 2011-2022 走看看