informatica 厂商培训资料

zoukankan html css js c++ java

informatica 厂商培训资料

1、informatica中domain与node的理解：

   domain 类似于局域网，node就是局域网中的节点或者计算机。

   node应与repository在数据库中存储在不同的scheme中，此处node指informatica操作的内容。

2、informatica中Repository Service 与 Intergration Service

   IS：工作引擎；RS：管理引擎，管理repository；

IS与RS工作流程为：客户端发请求到IS，IS调用RS完成各种ETL操作，其中，RS工作过程中会访问repository进行元数据信息、T规则等访问，并将task，workflow的结果状态等存储到repository。

   一般一个IS对应一个node，当一个一个IS要对应多个node时，涉及grid，将多个node放在一个grid下，一个grid对应一个IS。

3、server与client端driver配置

   一般配置driver时，尽可能选择native dirver，native dirver的性能高于ODBC，但是ODBC的兼容性和适用性高。

server 端driver：用于ETL过程中实际存取读写数据；

   client 端driver：用于导入source/target 表，即元数据。

4、informatica中数据处理方式为并行处理，即管道式处理。

5、分区

   分区使处理方式由单线程变成多线程，一个连接变成多个连接。

   分区后，当使用汇总、关联等组件时informatica可自动保证数据结果的正确性。

   在汇总、关联之前，若数据已进行排序，且组件中已排序属性已勾选，则数据为流式通过；否则，需数据全量到达然后进行处理。

6、集群：

   informatica既可支持单机，也可建立集群环境。而且，集群环境可以异构，即不限定OS,version等；

   在集群环境中，任务可通过以下三种方式分发：

第一种：轮询；

   第二种：动态控制，需在config文件中进行配置；

   第三种：建立task与node的映射表（，然后在config文件中进行配置该映射表？）。

   无论采取哪种方式，都可以保证task的执行顺序，因为task的执行顺序是由repository中workflow表（表名貌似是OPB_WORKFLOW）存储。

7、增值服务组件：HA，可自动接管坏点

   启用方式为：运行workflow时以auto recovery方式运行；

   要求：需在磁盘中建立共享存储，并配置主从节点。

8、规则文档映射

   informatica中mapping可导出成excel文件，并包含各种transformation rule。

   使用方式：在客户端repository组件中，选择要导出的mapping，右键菜单 export metadata。

9、批量开发

   利用visio组件，可实现批量ETL过程开发，尤其适用于平推。（具体转化方式不详）

10、CDC 增量采集

   主要适用于可做增量log的DB，如 oracle。先capture，然后apply。（具体抓取方式需查询相关文档）

11、下推优化：

   指导方针：平衡DB sever 与informatica server的负载。

   原理：将下推部分转化成sql，在DB中实现。可实现source下推和target下推。

   使用方法：session中mapping 菜单下有pushdown 选项。

12、数据校验插件 data validation

   可创建valid rule，代替手工校验。

13、前瞻监控 rulepoint

14、调优：

    1、减少port field

    2、减少过程中数据量，尽早filter

    3、避免不必要排序，sort is expensive

    4、expression 中符号比表达式性能高

       expression 中有变量端口，可生成中间量，重复使用

       expression中尽量少嵌套，可用高级函数代替

    5、尽量避免类型转换

    6、high precision is expensive

15、read write transformation 的统计信息除了在workflow monitor中，session log中也有

16、session中各参数

    DTM memory：session占用的全部内存（内存块个数）

    buffer block size：内存块大小（mapping中所有source的数据量的整数倍）

    line sequential buffer length：当源是文件时，文件记录长度

    max memory：最大内存块数

17、session 调优：

    尽量关闭日志；

    目标加载前利用pre sql 删除索引约束，加载完成后利用post sql 重建索引约束；

    提交间隔可稍微设置大一些；

    关闭统计信息收集；

    设置各种参数；

    数据装载方式尽量选择loader

18、temp文件与cache文件的区别：

    具体参见各组件使用的文件夹配置名称，如sort组件使用temp文件夹，join组件使用cache文件夹。

查看全文

相关阅读:
Cookie同Session的关系 (2)
Java Web应用开发概述
 Oracle客户端工具连接数据库服务器问题汇总
 java中使用JSCH包，SFTP及SSH2文件操作及远程命令执行
 javascript学习实录之九（选择样式，改变文字效果）刘小小尘
 用python给MP3加封面图片，修改作者，专辑等信息
 超像素分割技术发展情况梳理(Superpixel Segmentation）计算机视觉专题3
android 应用程序的内存分析
 查询成绩
 sharepoint 2010 获取列表术语数据源方法

原文地址：https://www.cnblogs.com/tdskee/p/5787175.html