zoukankan
html css js c++ java
四种数据ETL模式
根据模型的设计和源数据的情况,有四种数据ETL模式:
完全刷新:数据仓库数据表中只包括最新的数据,每次加载均删除原有数据,然后完全加载最新的源数据。这种模式下,数据抽取程序抽取源数据中的所有记录,在加载前,将目标数据表清空,然后加载所有记录。为提高删除数据的速度,一般是采用Truncate清空数据表。如本系统中的入库当前信息表采用此种模式。
镜像增量:源数据中的记录定期更新,但记录中包括记录时间字段,源数据中保存了数据历史的记录,ETL可以通过记录时间将增量数据从源数据抽取出来以附加的方式加载到数据仓库中,数据的历史记录也会被保留在数据仓库中。
事件增量:每一个记录是一个新的事件,相互之间没有必然的联系,新记录不是对原有记录数值的变更,记录包括时间字段,可以通过时间字段将新增数据抽取出来加载到数据库中。
镜像比较:数据仓库数据具有生效日期字段以保存数据的历史信息,而源数据不保留历史并且每天都可能被更新。因此,只能将新的镜像数据与上次加载的数据的镜像进行比较,找出变更部分,更新历史数据被更新记录的生效终止日期,并添加变更后的数据。大多数源数据中需保存历史信息的维表.
查看全文
相关阅读:
node.js 与java 的主要的区别是什么
基于Node.js+MySQL开发的开源微信小程序B2C商城(页面高仿网易严选)
Linux下SVN安装配置
Linux查看CPU和内存使用情况
Linux添加/删除用户和用户组
java远程调试
springboot和mybatis集成,自动生成model、mapper,增加mybatis分页功能
客户端、服务端,跨域访问设置
HTTP和HTTPS协议
KMP算法代码
原文地址:https://www.cnblogs.com/zhaofei/p/3622620.html
最新文章
spark 2015 发展方向
scala Futures and Promises
spark 笔记 16: BlockManager
spark中使用的内存文件系统-Tachyon FS 简介
spark 笔记 15: ShuffleManager,shuffle map两端的stage/task的桥梁
spark 笔记 14: spark中的delay scheduling实现
spark 笔记 13: 再看DAGScheduler,stage状态更新流程
spark 笔记 12: Executor,task最后的归宿
spark 笔记 11: SchedulingAlgorithm 两种调度算法的优先级比较
spark 笔记 10: TaskScheduler相关
热门文章
移动支付乡村推广员:互联网时代的神经末梢
邬贺铨:互联网经济跟实体经济并不对立
在Linux中新增与删除用户可以使用命令:Useradd
半导体
半导体二极管
全球最性感的13大仿真机器人 功能太全难把持!
全国最美的美女机器人 机械制造技术“屌”到爆
软银开放Pepper开发,给机器人写安卓App是怎样一种体验?
【Android开发】范例1-绘制Android的机器人
安卓智能聊天机器人开发(一)
Copyright © 2011-2022 走看看