zoukankan      html  css  js  c++  java
  • 数据仓库知识

    一.数据仓库的特点

        面向主题 、集成的 、随时间变化 、相对稳定的 、反应历史数据

    二.数据仓库构建思想

    •  自上而下(Bill Inmon):唯一数据中心
    •  自下而上(Ralph Kimbal):

    三.ETL

      Extract:数据清洗

      Transformation:转换

      Load:加载

     ETL调度目标:

         数据来源:数据库 、数据库文件 、文本文件 、程序生成

         系统数目:单个/多个(过多可以考虑接口实现)

       数据库的类型:同种数据库/多种数据库

    ETL调度参数设计

       调度优先级/调度次序/中断标志/回滚标志/调度开始结束时间等

    ETL调度日志管理

      文件记录/数据库记录

      作业名称/作业执行开始-结束时间/作业执行结果。异常信息捕获/作业编号等

    ETL调度JOB设计

      数据文本文件加载/SQL在程序中调用/存储过程/ETL工具的WORKFLOW

    元数据

    • 技术元数据
    • 业务元数据

     ETL程序开发

    •   创建MAPPING
    •   创建流程
    •   数据抽取

    数据仓库的结构

    Informatica的功能

    • 按照统一的规则集成并提高数据的价值
    • 负责将数据从业务应用数据库中提取 、转换 、并加载到ODS中
    • 负责将ODS中按照主题发布的数据提取 、转换并加载到数据仓库中
    • 按照一定格式,整合 、转换 、汇总 、传输数据

    元数据:描述数据的数据

    两个server:管理元数据的server,ETL的server

    五个Client:

    • PowerCenter Designer  
    • Workflow Manager
    • Workflow Monitor
    • Repository Manager
    • Respository Server Administrator Console

    ETL的实现方法

    • 安装Oracle服务器
    • 在数据库下新建用户,管理资料库,用于存放源表和目标表
    • 安装oracle客户端
    • 安装ETL服务器
    • 安装ETL客户端
    • 配置数据源

    步骤:

      源表  目标表    ETL规则(Mapping) 实例化session

    创建workFlow(复杂的流程控制)    监测最终的任务结果 

    安装JDK(java)   、安装oracle10g Server 、安装oracle 10g client

       

  • 相关阅读:
    基于风险集成 Risk-Based
    基于消息(事件)集成 Message-Based/Event-Based
    如何保证系统测试的完备性?
    1.1 功能测试(功能)
    问:给你一个网站,你如何测试?
    问:你在测试中发现了一个bug,但是开发经理认为这不是一个bug,你应该怎样解决?
    4.如何重新加载 Spring Boot 上的更改,而无需重新启动服务器?
    什么是 JavaConfig?
    Spring Boot 有哪些优点?
    .Redis中的常用命令哪些?
  • 原文地址:https://www.cnblogs.com/Jims2016/p/5627025.html
Copyright © 2011-2022 走看看