1、数据同步
因为我们需要每天分析的数据都是最新的!!!所以就涉及数据的同步
2、表的分类
①实体表:
一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等
②维度表:
一般是指对应一些业务状态,代码的解释表,也可以称之为码表。比如地区表,订单类型,支付类型,商品类别......
③事实表
1)事务型事实表:
一般指随着业务发生不断产生的数据,特点是一旦发生不会再改变,比如:交易流水、操作日志、出入库记录等
2)周期型事实表:
一般指随着业务发生不断产生的数据。与事务型不同的是,数据会随着业务周期性的推进而变化。
比如订单表,其中有一个字段,订单状态,这个会周期性变化。 再比如,请假、贷款申请,随着批复状态在周期性变化。
注:事实表:数据很庞大,比如订单,那么每天可能就有几万条、几亿条,而且十年前的订单和今天的订单都要存起来!!
实体表:数据量中等,比如用户:13亿以内 、商品:几亿以内等
维度表:数据量最小
3、同步策略
①固定维度表:比如中国的省份表, 不会增加,不会变动,固定存一份就行。
②事务性事实表:比如订单流水, 只会增加,不会变动。每日增量。
③周期型事务表、实体表、一般维度表 :我的建议是将增加及变化量做拉链表 或者 每日全量(数据量大不要考虑)