CAP理论指的是任何一个分布式计算系统都不能同时保证如下三点: Consistency(一致性):所有节点上的数据时刻保持同步 Availability(可用性):每个请求都能接收到一个响应,无论响应成功或失败. Partition tolerance(分区容错性):系统应该能持续提供服务,无论网络中的任何分区失效. CA without P CP without A AP without C
对于数据仓库来说,数据就是客观存在的,不可变的,只能增加和查询.传统的CURD(创建、更新、读取、删除)变为CR. 这个概念与数据仓库的非易失性非常吻合,任何的变更都是增加记录.通过对所有记录的操作进行合并,从而得到最终记录. 对数据仓库的每一次操作,就是对所有数据进行全局计算,也就没有一致性的问题. Hadoop真是这样的系统! Hadoop的HDFS只支持数据增加,其数据复制策略解决了数据可用性问题,而MapReduce进行全局计算,完美地符合了数据处理的期望.