数据仓库的特征
1、面向主题
主题是指用户使用数据仓库进行决策时所关心的重点领域,也就是在一个较高的管理层次上对信息系统的数据按照某一具体对象进行综合、归类所形成的分析对象。
2、集成性
数据仓库中存储的数据一般从企业原来已经建立的数据库系统中提取出来,但并不是原有的数据简单拷贝,而是经过了抽取、筛选、清理、转换、综合等工作得到的数据。
3、稳定性
数据仓库在某一个时间段内看来是保持不变的。
4、随时间而变化
数据仓库大多关注的是历史数据,其中数据是批量载入的,即定期从操作性应用系统中接受新的数据内容,这使得数据仓库中的数据总是拥有时间维度。
除上述4大特征之外,数据仓库还具有高效率、高数据质量、拓展性好和安全性好等特点。
数据仓库的稳定性和时变性并不矛盾,从大时间段来看,它是时变的,但从小时间段来看,它是稳定的。
从数据库到数据仓库
操作型处理称为事务处理,是指对操作性数据库的日常操作。
传统数据库系统侧重于企业的日常事务处理工作,但难于实现对数据的分析处理要求,已经无法满足数据处理多样化的要求。操作性处理和分析型处理的分离成为必然。
操作型数据 | 分析型数据 |
细节的 | 综合的 |
存取瞬间 | 历史数据 |
可更新 | 不可更新 |
事先可知操作需求 | 事先不可知操作需求 |
符合软件开发生命周期 | 完全不同的生命周期 |
对性能的要求较高 | 对性能的要求较为宽松 |
某一时刻操作一个单元 | 某一时刻操作一个集合 |
事务驱动 | 分析驱动 |
面向应用 | 面向分析 |
一次操作的数据量较小 | 一次操作的数据量较大 |
支持日常操作 | 支持管理需求 |
数据仓库为什么是分离的
1、操作数据库是为已知的任务和负载设计的,如使用主关键字索引,检索特定的记录能优化查询;支持多事务的并行处理,需要加锁和日志等并行控制和恢复机制,以确保数据的一致性和完整性
2、数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算,可能需要特殊的数据组织、存取方法和基于多维视图的实现方法。对数据记录进行只读访问,以进行汇总和聚集。
3、数据仓库系统用于决策支持需要历史数据,将不同来源的数据统一(如聚集和汇总),产生高质量、一致和集成的数据。
数据仓库与操作型数据库的对比
目前大部分数据仓库还是用关系数据库管理系统来管理的。
数据仓库 | 操作型数据库 |
面向主题 | 面向应用 |
容量巨大 | 容量相对较小 |
数据是综合的或提炼的 | 数据是详细的 |
保存历史的数据 | 保存当前的数据 |
通常数据是不可更新的 | 数据是可更新的 |
操作需求是临时决定的 | 操作需求是事先可知的 |
一个操作存取一个数据集合 | 一个操作存取一个记录 |
数据常冗余 | 数据非冗余 |
操作相对不频繁 | 操作较频繁 |
所查询的是经过加工的数据 | 所查询的是原始数据 |
支持决策分析 | 支持事务处理 |
决策分析需要历史数据 | 事务处理需要当前数据 |
需做复杂的计算 | 鲜有复杂的计算 |
服务对象为企业高层决策人员 | 服务对象为企业业务处理方面的人员 |
数据仓库的应用
1、决策支持
数据仓库系统提供各种业务数据,用户利用各种访问工具从数据仓库获取决策信息,了解业务的运营情况。
2、客户分类与评价
以客户为中心的业务策略,最重要的特征是细分市场,即把客户或潜在客户分为不同的类别,针对不同种类的客户提供不同的产品和服务,采用不同的市场和营销策略。
3、市场自动化
市场自动化的最主要内容是促销管理,促销管理的功能包括:
(1)提供目标客户的列表
(2)指定客户的接触的渠道
(3)指定促销的产品、服务或活动。
(4)确定与其他活动的关系。