数据货仓
什么是数据货仓?
数据库利用按次有两种次要范例:在线事件处置惩罚(online transactional processing,OLTP)和数据货仓,数据货仓包孕在线剖析处置惩罚(online analytical processing,OLAP)和数据挖掘利用按次。DB2 9 同时适用于这两种利用按次。OLTP 琐屑与业务智能(Business Intelligence,BI)数据货仓琐屑的区别是什么?区别在于拜访数据的规范盘考。
OLTP 琐屑可以是一个 Web 订购琐屑,可以经由 Web 实行买卖业务(例如购置产品)。这些利用按次的特性是终了细粒度的单行盘考,可以更新多量的纪录。与之相反,BI 范例的盘考实行大型的表扫描,由于它们测验考试在少量数据中寻找数据形式。要是要求您汇总西部区域的统统发卖,这就是货仓盘考。
庞大地说,OLTP 是冗长的盘考,而 BI 是对少量数据终了搜刮和汇总以便终了述说。固然,理想环境不但云云,但是今朝您知道这么多就够了。
包孕利用性数据 (运转企业的一样平常买卖业务的数据)的琐屑是 OLTP 琐屑。但是,这些琐屑包孕企业剖析师用来认识企业运营环境的信息。例如,他们可以审查某暂时分段外延某个区域发卖出了哪些产品。这有助于辨认十分环境或对未来的发卖终了规画。
但是,要是剖析师直接拜访利用性(OLTP)数据来终了述说和其他 BI 行为,就会有几个后果:
-
他们可以没有盘考利用性数据库的专业经历。一样平常来说,有盘考利用性数据库的专业经历的按次员会当真全职地维护数据库及其利用按次。
-
成效关于良多利用性数据库来说格外十分次要,例如用来处置惩罚银行事件的数据库。这些琐屑不能应付用户对利用性数据存储终了特另外盘考。例如,考虑在线支付帐单的环境。在选择 OK 时,处置惩罚支付常常只需求损耗几秒。今朝,假定一个银行剖析师试图查明某个现有的主顾群损耗了几何钱。这个剖析师运转一个格外十分庞大的盘考,招致您的银行事件今朝要损耗 30 秒能力完成!显然,多么的成效是不行接收的(这可不是剖析师渴想的结果)。因此,利用性数据存储和述说性数据存储(包孕 OLAP 数据库)一样平凡是脱离间断中止分散的。
但是,在曩昔几年里,述说性数据存储已经偏向于变得具有伪利用性和实时性。这种存储称为利用数据存储(ODS)或活跃数据 货仓。例如,考虑电信行业的环境。ODS 在这些电信运营公司中很风行,由于他们需求尽可以快地辨认出歹意欠费的环境。DB2 是多半几种同时妥当利用性和述说性工作负载的数据库。
-
利用性数据一样平常没有采取最妥当业务剖析师运用的技俩。与原始的事件数据比拟,依据产品、区域和季候汇总的发卖数据关于剖析师要有效得多。
数据货仓 处置惩罚了这些后果。在数据货仓中可以存储信息性数据 —— 这些数据是从利用性数据中提掏出来的,然后为帮忙终极用户抉择终明晰转换和整顿。例如,数据货仓工具可以会复制利用性数据库中的统统发卖数据,实行计算来汇总数据,并将汇总的数据写入一个与利用性数据库脱离间断中止分散的数据库中。终极用户可以盘考这个独立的数据库(货仓),而不会影响 OLTP 数据库。
用于数据货仓的 DB2 产品
DB2 是为帮忙完成业务智能化而设计的。DB2 不单是全国上可伸缩性最好的数据库,它还有一套强壮的业务智能化成效。DB2 有两个 Data Warehouse Editions(DB2 DWE),以昂贵的价格提供一整套数据货仓工具。这些工具的一部分可以在 DB2 DWE 之外单独购置,其他工具只能经由 DB2 DWE 包得到。DB2 DWE 分为 Base 和 Enterprise 两个版本。
DB2 DWE 是在强盛的 DB2 Enterprise 9 产品上构建的并扩展了它的成效,行进了数据货仓和剖析特性的成效和易用性,帮忙终了实时探察和抉择的用户得到需求的信息。DB2 DWE 特性包孕用于货仓管理、剖析利用按次斥地、OLAP、数据挖掘以及超大型数据库(VLDB)盘考和资源管理的工具。
DB2 DW Enterprise Edition 中包孕的产品有:
- DB2 Enterprise
-
- DB2 Data Partitioning 特性
- 这个特性容许在单一效能器上大概跨效能器集群对数据库终了分区。DB2 Data Partitioning 为企业提供了支持超大型数据库(这是数据货仓环境中的罕见环境)所需的可伸缩性,并可以处置惩罚触及庞大工作负载和高并行性的管理义务。这个特性可以在 DB2 DWE 产品之外单独购置。
- DB2 Data Warehouse Edition Design Studio
- DWE Design Studio 是经由包孕和扩展一些基于 Eclipse 的 Rational Data Architect(RDA)建模成效构成的,这是一个针对 BI 处置惩罚方案的斥地环境。Design Studio 将以下义务集成在一个同一的图形化环境中:物理数据建模(RDA)、DB2 基于 SQL 的货仓组织、OLAP 多维数据集建模和数据挖掘建模。
这个设计工具使设计人员可以邻接源数据库和目标数据库、对物理数据模子终了反向工程、构建 DB2 基于 SQL 的数据流和挖掘流、设置 OLAP 多维数据集以及准备将利用按次部署到运转时琐屑上。由于它是基于 Eclipse 框架的,这个工具看起来与 DB2 Developer Workbench 相似。
- SQL Warehousing Tool
- 为了支持端到端业务智能化处置惩罚方案,DB2 DWE 提供了用于货仓构建和维护的根柢装备,包孕用于利用按次设计、部署、实行和管理的工具。
SQL Warehousing Tool 处置惩罚了 DB2 数据货仓环境中的数据集成后果。用户可以对高层利用的逻辑流终了建模,这会发作组织在实行设计中的代码单位。这个工具提供一个元数据琐屑和 IDE 来建立、编纂和管理这些流,还提供一个可以分明理解理睬源图并将它转换为优化的 SQL 代码的代码生成琐屑。当流的斥地完成时,这个琐屑的第二个部分就要发扬感染了:将生成的代码以及相联络关连的工件打包成一个数据货仓利用按次,这个利用按次可以部署在各种目标运转时琐屑中。
数据货仓利用按次斥地人员和架构师可以运用 Design Studio 来建立:
- 源和目标数据库和表的物理数据模子。
- 代表数据经由转换步调进入目标数据库中的转移历程的数据流。例如:
- SQL 数据流,它们运用 DB2 货仓构建利用的 SQL 处置惩罚成效对来自关连表、立体文件等前导发轫的数据终了处置惩罚
- 挖掘流,它们将枢纽的数据挖掘利用集成到基于 SQL 的模子中
- 将可选的 DataStage ETL 作业作为子流集成的 SQL 数据流
- 控制流,它们抉择一组相干数据流的按次并为实行这些数据流界说处置惩罚划定端正。
- 部署包,它们包孕构成统统利用按次的统统文件和参数,可以终了安设和实行。
可以运用 DB2 Data Warehouse Edition 作为运转引擎,运用 IBM WebSphere® Application Server 软件提供控制和调剂成效,从而实行和管理控制流。WebSphere Application Server 为数据货仓利用按次提供运转时部署环境。管理员可以从 Web 客户计算机运转基于欣赏器的 Data Warehouse Edition Administration Console 来拜访 WebSphere。
- DB2 Data Warehouse Edition Administration Console
- DB2 DWE Administration Console 是一个用于管理和扼守 BI 利用按次的基于 Web 的利用按次。安设在 WebSphere Application Server 上之后,DWE Administration Console 运用 Web 客户机拜访和部署在 DWE 中建模和设计的数据货仓利用按次。这个控制台运用 WebSphere 安全模子,运用户可以以管理员、经理和利用员的角色从同一的控制台页面实行各种管理义务。这个控制台支持 5 类成效:
- DWE Common:建立数据源并为 OLAP 和挖掘启用数据库。
- SQL Warehousing:部署、调剂和扼守在 Design Studio 中建立的数据货仓利用按次。拜访与历程相联络关连的统计数据和日记并扫除运转时毛病。
- OLAP:导入和导出多维数据集模子、运用 OLAP 优化器并显示多维数据集模子的元数据内容,例如它的表、联络、器量和属性。
- Mining:审查、导出、更新和删除挖掘数据库中的模子。还可以将挖掘模子导入到数据库中以及将模子装载进缓存中。这个挖掘可视化工具可以提供挖掘模子的图形化表现。
- Alphablox:启动本机的 Alphablox Administration 工具。
- DB2 Data Warehouse Edition OLAP Acceleration
- 夙昔称为 DB2 Cube Views。经由运用 DWE Design Studio 和 Administration Console 中的 OLAP 成效,用户可以建立、利用、优化、部署、导入或导出多维数据集模子、多维数据集和在 OLAP 剖析中运用的其他元数据工具。DWE Design Studio 提供了利便运用的领导和窗口来帮忙用户处置惩罚 OLAP 元数据。
- DB2 Data Warehouse Edition Data Mining
- 经由运用 DB2 DWE 数据挖掘特性,可以发现数据中埋没的关连,而不需求将数据导出到特另外数据挖掘计算机上大概借助于多量数据样本。DB2 DWE 为一些建模利用提供了 DB2 扩展:市场篮剖析、市场谈判、剖析等等。
- DB2 Data Warehouse Edition Data Visualization Feature
- 用来显示建立的挖掘模子。
- DB2 Alphablox analytics
- DB2 Alphablox 提供了疾速建立基于 Web 的定制利用按次的技巧,使利用按次可以顺应公司的根柢装备并可以为公司防火墙表里的用户效能。用 DB2 Alphablox 构建的利用按次在规范 Web 欣赏器中运转,容许从客户计算机实行实时的高度可定制的多维剖析。DB2 Alphablox 与 DWE Cube Views 细密集成,DWE Cube Views 提供常用的元数据并为 Alphablox 多维剖析终了数据库优化。
- DB2 Data Warehouse Edition Query Workload Management Feature
- DB2 Query Patroller 是 DWE 的盘考工作负载管理特性。这个产品也可以在 DB2 DWE 包之外单独购置。DB2 Query Patroller 是一个强盛的盘考管理琐屑,可以运用它以下面的体例前瞻性地静态控制 DB2 数据库的盘考流:
- 为分歧局限的盘考界说差另外盘考类,从而更好地在盘考之间分享琐屑资源并防止较小的盘考被大型盘考阻断。
- 给某些用户提交的盘考设置高优先级,让这些盘考可以更早地运转。
- 自动地辨认大型盘考,多么就可以打消它们大概将它们调剂到低谷时分段运转。
- 跟踪和打消永劫分运转的盘考。
DB2 Query Patroller 的特性使您可以控制数据库的盘考负载,让小型盘考和高优先级的盘考可以疾速运转,并让琐屑资源失失高效哄骗。
还可以收集和剖析关于已经完成的盘考的信息,从而鉴别盘考、高负载用户以及常用表和索引中的趋势。管理员可以运用 DB2 Query Patroller:
- 在琐屑级和用户级设置资源运用计谋。
- 经由打消或从头调剂那些影响数据库成效的盘考,静态地扼守和管理琐屑的资源运用。
- 生成有助于辨认数据库运用环境趋势的述说,例如拜访了哪些工具以及哪些用户和用户组发作的工作负载最大。
- 盘考提交者可以运用 DB2 Query Patroller 扼守他们提交的盘考;存储盘考结果供当前检索或重用,这理想上可以防止提交反复的盘考;设置各种首选项来优化他们的盘考提交,例如在盘考完成时能否渴想接收电子邮件通知。
版权声明: 原创作品,容许转载,转载时请务必以超链接形式标明文章 原始来由 、作者信息和本声明。否则将深究法律责任。