zoukankan      html  css  js  c++  java
  • 数据仓库知识

    一.数据仓库的特点

        面向主题 、集成的 、随时间变化 、相对稳定的 、反应历史数据

    二.数据仓库构建思想

    •  自上而下(Bill Inmon):唯一数据中心
    •  自下而上(Ralph Kimbal):

    三.ETL

      Extract:数据清洗

      Transformation:转换

      Load:加载

     ETL调度目标:

         数据来源:数据库 、数据库文件 、文本文件 、程序生成

         系统数目:单个/多个(过多可以考虑接口实现)

       数据库的类型:同种数据库/多种数据库

    ETL调度参数设计

       调度优先级/调度次序/中断标志/回滚标志/调度开始结束时间等

    ETL调度日志管理

      文件记录/数据库记录

      作业名称/作业执行开始-结束时间/作业执行结果。异常信息捕获/作业编号等

    ETL调度JOB设计

      数据文本文件加载/SQL在程序中调用/存储过程/ETL工具的WORKFLOW

    元数据

    • 技术元数据
    • 业务元数据

     ETL程序开发

    •   创建MAPPING
    •   创建流程
    •   数据抽取

    数据仓库的结构

    Informatica的功能

    • 按照统一的规则集成并提高数据的价值
    • 负责将数据从业务应用数据库中提取 、转换 、并加载到ODS中
    • 负责将ODS中按照主题发布的数据提取 、转换并加载到数据仓库中
    • 按照一定格式,整合 、转换 、汇总 、传输数据

    元数据:描述数据的数据

    两个server:管理元数据的server,ETL的server

    五个Client:

    • PowerCenter Designer  
    • Workflow Manager
    • Workflow Monitor
    • Repository Manager
    • Respository Server Administrator Console

    ETL的实现方法

    • 安装Oracle服务器
    • 在数据库下新建用户,管理资料库,用于存放源表和目标表
    • 安装oracle客户端
    • 安装ETL服务器
    • 安装ETL客户端
    • 配置数据源

    步骤:

      源表  目标表    ETL规则(Mapping) 实例化session

    创建workFlow(复杂的流程控制)    监测最终的任务结果 

    安装JDK(java)   、安装oracle10g Server 、安装oracle 10g client

       

  • 相关阅读:
    Windows 系统变量大全
    linux编程
    CSS 对齐操作
    php 和 表单 简单交互
    HTML <input> placeholder 属性
    HTML <label> 标签
    Chap-4 Section 4.4 C++相关问题
    Chap-4 Section 4.3 COMMON块
    Chap-4 Section 4.2.4 指令修正方式
    Chap-4 Section 4.2.3 符号解析
  • 原文地址:https://www.cnblogs.com/Jims2016/p/5627025.html
Copyright © 2011-2022 走看看