zoukankan      html  css  js  c++  java
  • ETL高级教程学习笔记

    在导异构数据的过程中,最好加入一个派生列标识这行数据是从哪个数据系统里来的,这样在导的时候发生错误可以确定是哪个业务系统发生了问题.

     

    ODS的定义似乎业内没有一个统一的标准,教程里理解的是一个业务系统数据库的快照.教程推荐业务系统的数据先导到这个ODS层数据库中,虽然是快照,不过也可以适当的加些转换或者标识,比如加派生列标识数据是从哪里来的,然后清洗和转换的工作在在ODS和数据仓库之间做.

    通常不存储历史的记录信息

     

    缓慢变化维度:有三种类型:

    Fixed,不变化,如果变化了系统将报错

    Changing,变化的,直接更新变化的值

    Historical,属性变化时会保存已有记录,并加入一条新记录

    缓慢变化维度在SSIS中有专门的这个组件

     

    格式简单的,直接抽取

    格式复杂的,编程实现

     

    Maping,ods 数据仓库起到中间匹配的作用,比如过滤ODS中的重复数据.

     

    转换的时候允许中间建立多个临时的表.

    对于复杂的逻辑可以使用存储过程.

     

    数据的加载策略

    时间戳

    日志

    全表对比

    全表删除插入

    维度表:通常用全表对比

    事实表:通常用时间戳

     

    推荐的书:

    数据挖掘

     

    包配置:

    包配置文件的作用:

    方便将包从开发环境部署到运行环境

    提高设计包过程的灵活性

    包配置文件有五种类型

    XML文件,(操作系统中的)环境变量,注册表信息,父级包里的变量,SQLServer

     

    包检查点:

    设置检查点的作用:

    避免重复加载大量数据

    避免重复高负荷的计算

    避免重复上载和下载文件

    检查点的设置:CheckPointUsage

    Never:永远都从包的起始点

    Always:始终使用检查点文件

    IfExists,如果有,则从中断点执行,否则重头执行

     

    包的部署和管理:

    手动部署:直接调用执行或注册到SQLServer(引用注册,导入到msdb)

    通过部署工具

  • 相关阅读:
    HDU 1686 Oulipo(kmp)
    openstack介绍以及流程
    openstack组件介绍
    linux之sort
    linux-ls命令
    CSRF-跨域访问保护
    WEB聊天
    python之路-Django进阶
    python之路-Django
    python之路-jQuery
  • 原文地址:https://www.cnblogs.com/aspnetx/p/1019982.html
Copyright © 2011-2022 走看看