数仓架构分五层,第一层是数据源,又称上游系统,银行为例,数据源由核心系统、ECIF、贷款系统、存款系统、中间业务总账系统、财务系统 等等。
第二层,贴源层,又称标准化层(ODS),这里需要清洗脏数据(用正则表达式、条件过滤),规范命名,数据类型和格式作标准化处理,添加时间戳字段。
源到贴源层用ETL工具(datastage、kettle、infomatica)同步抽取;用shell脚本来异步传输。
第三层,FDM层(基础层),按照业务条件(或业务逻辑),汇总加工源数据(ods层的数据),形成宽表。(用存储过程实现)
第四层,汇总层/主题层。按照不同维度(机构、日期、币种、地点)来汇总;根据客户需求提炼主题数据(where过滤)。(用存储过程实现)
第五层,应用层。包括报表,下游系统,数据平台,数据集市。