zoukankan      html  css  js  c++  java
  • INFORMATICA 的调优之一 源数据的优化

     5W1H法来实现源数据的优化

    做数据仓库项目的朋友都能感到数据质量和数据抽取展现的性能是整个数据仓库项目的重点。下面谈谈我在DW项目中处理源数据质量问题的5W1H方法。

     

    5W : WHO ,WHAT,WHY,WHEN,WHERE

     

    WHO:(谁来对源数据负责)

    ETL抽取的数据各种各样,有些是按业务,有些是按区域,针对源数据的管理一定要在一开始就对源数据按规则分出对应的责任人,一般刚开始与业务负责人,DM确定好具体的数据项后,就可以按数据类别比如RMDB,FLATFILE等来确定具体的联系人,联系方式。

     

    WHAT:(源数据的业务含义)

    源数据的具体业务含义由对应的业务负责人来确定,这点对DM的设计很重要。

     

    WHY:(为什么要抽取这个数据到DW

     

    WHEN: (数据的生命周期多久,多久需要更新,有无抽取时间限制)

     

    WHERE:(源数据放在什么地方来抽取,是RMDB还是指定路径下的 FLATFILE,还是URL WEBSITE)一般为了保证源数据的抽取质量能先预处理到DB中的尽量先到DB中,这样的数据的处理信息会存到元数据知识库,便于确保数据质量。)

     

    HOW: (如何抽到DW) 这里面主要考虑源数据存储的是否有序,如果前面5W做好了,这里面的源数据质量应该没问题,这一步主要考虑能否在缓冲区建立有效索引,对文件类型的源数据做基本清洗工作等。

  • 相关阅读:
    B树与B+详解
    SQLite占用资源少原因
    iOS SQLite详解
    YTKNetwork网络封装
    YTKNetwork源码详解
    AFNetworking封装-项目使用
    iOS网络请求-AFNetworking源码解析
    PHP 不使用第三个变量实现交换两个变量的值
    PHP public private protected 三种修饰符的区别
    PHP 汉字转拼音
  • 原文地址:https://www.cnblogs.com/tdskee/p/5803702.html
Copyright © 2011-2022 走看看