zoukankan      html  css  js  c++  java
  • informatica 厂商培训资料

    1、informatica中domain与node的理解:

       domain 类似于局域网,node就是局域网中的节点或者计算机。

       node应与repository在数据库中存储在不同的scheme中,此处node指informatica操作的内容。

    2、informatica中Repository Service 与 Intergration Service

       IS:工作引擎;RS:管理引擎,管理repository;

       IS与RS工作流程为:客户端发请求到IS,IS调用RS完成各种ETL操作,其中,RS工作过程中会访问repository进行元数据信息、T规则等访问,并将task,workflow的结果状态等存储到repository。

       一般一个IS对应一个node,当一个一个IS要对应多个node时,涉及grid,将多个node放在一个grid下,一个grid对应一个IS。

    3、server与client端driver配置

       一般配置driver时,尽可能选择native dirver,native dirver的性能高于ODBC,但是ODBC的兼容性和适用性高。

       server 端driver:用于ETL过程中实际存取读写数据;

       client 端driver:用于导入source/target 表,即元数据。

    4、informatica中数据处理方式为并行处理,即管道式处理。

    5、分区

       分区使处理方式由单线程变成多线程,一个连接变成多个连接。

       分区后,当使用汇总、关联等组件时informatica可自动保证数据结果的正确性。

       在汇总、关联之前,若数据已进行排序,且组件中已排序属性已勾选,则数据为流式通过;否则,需数据全量到达然后进行处理。

    6、集群:

       informatica既可支持单机,也可建立集群环境。而且,集群环境可以异构,即不限定OS,version等;

       在集群环境中,任务可通过以下三种方式分发:

       第一种:轮询;

       第二种:动态控制,需在config文件中进行配置;

       第三种:建立task与node的映射表(,然后在config文件中进行配置该映射表?)。

       无论采取哪种方式,都可以保证task的执行顺序,因为task的执行顺序是由repository中workflow表(表名貌似是OPB_WORKFLOW)存储。

    7、增值服务组件:HA,可自动接管坏点

       启用方式为:运行workflow时以auto recovery方式运行;

       要求:需在磁盘中建立共享存储,并配置主从节点。

    8、规则文档映射

       informatica中mapping可导出成excel文件,并包含各种transformation rule。

       使用方式:在客户端repository组件中,选择要导出的mapping,右键菜单 export metadata。

    9、批量开发

       利用visio组件,可实现批量ETL过程开发,尤其适用于平推。(具体转化方式不详)

    10、CDC 增量采集

       主要适用于可做增量log的DB,如 oracle。先capture,然后apply。(具体抓取方式需查询相关文档)

    11、下推优化:

       指导方针:平衡DB sever 与informatica server的负载。

       原理:将下推部分转化成sql,在DB中实现。可实现source下推和target下推。

       使用方法:session中mapping 菜单下有pushdown 选项。

    12、数据校验插件 data validation

       可创建valid rule,代替手工校验。

    13、前瞻监控 rulepoint

    14、调优:

        1、减少port field

        2、减少过程中数据量,尽早filter

        3、避免不必要排序,sort is expensive

        4、expression 中符号比表达式性能高

           expression 中有变量端口,可生成中间量,重复使用

           expression中尽量少嵌套,可用高级函数代替

        5、尽量避免类型转换

        6、high precision is expensive

    15、read write transformation 的统计信息除了在workflow monitor中,session log中也有

    16、session中各参数

        DTM memory:session占用的全部内存(内存块个数)

        buffer block size:内存块大小(mapping中所有source的数据量的整数倍)

        line sequential buffer length:当源是文件时,文件记录长度

        max memory:最大内存块数

    17、session 调优:

        尽量关闭日志;

        目标加载前利用pre sql 删除索引约束,加载完成后利用post sql 重建索引约束;

        提交间隔可稍微设置大一些;

        关闭统计信息收集;

        设置各种参数;

        数据装载方式尽量选择loader

    18、temp文件与cache文件的区别:

        具体参见各组件使用的文件夹配置名称,如sort组件使用temp文件夹,join组件使用cache文件夹。

  • 相关阅读:
    windows下部署MySQL 8.0.11
    基于beego构建Restful API服务
    Go 并发
    Go语言的面向对象(OOP)
    Go基础语法纪要
    软件工程基础图式(第四章 系统设计-面向过程的系统设计)
    概率论与数理统计图式(第三章 多维随机变量)
    编译技术图式(第四章 语法分析)01文法和语法的定义
    计算机组成原理和结构图式(第三章 CPU子系统)
    Java图式(第三章 流程控制、数组)
  • 原文地址:https://www.cnblogs.com/tdskee/p/5787175.html
Copyright © 2011-2022 走看看