商业智能概述
对学习的零散的商业智能知识进行梳理,理出其中的脉络和逻辑,便于查询和阅读。
- 1、商业智能的定义
- 2、商业智能的作用和用户
- 3、商业智能的实施方法
- 4、数据仓库的实现方法及数据仓库中的数据模型
- 5、数据处理和分析相关的技术
- 5.1 Reporting System
- 5.2 OLAP和多维数据模型
- 5.3 数据挖掘(data mining)
- 5.4 数据可视化
- 6、 概念辨析
1、商业智能的定义
=================
商业智能,英文为Business Intelligence,指的是一类由数据仓库(或者数据集市)、查询报表、联机分析、数据挖掘、数据备份和恢复等部分组成的,以帮助企业决策为目的的技术及其应用。
商业智能(Business Intelligence)指的是,企业通过整合内部业务系统数据和外部的竞争对手数据、行业数据、客户数据、政府数据等形成企业数据仓库(Enterprise Data Warehouse),并基于EDW处理和分析数据以形成对企业生产决策有用的信息,最终达到辅助企业决策的目的一系列技术。商业智能包括两个部分,一是数据收集和存储技术,二是数据处理和使用技术。
商业智能系统一般由:用于收集数据的ETL和存储数据的数据仓库、其他基于数据仓库的数据分析和挖掘系统(比如报表系统、OLAP、数据挖掘、数据可视化系统)组成。前者是后者的基础,后者是前者价值的体现。
狭义的商业智能指的是Reporting System,就是基于DW设计的报表系统。是领导们想要看的报表的展现,通过DW中的维度表和事实表,来从不同的维度看领导想要的数据。比如大中华区销售了多少,每个省的KPI怎么样等等。
广义的商业智能指的是整个BI system,包括ETL,DW,相应的Reporting System、OLAP、数据挖掘,还有前端的数据可视化系统。 因为现在一般的公司动不动说上个BI系统,都是要从DW建模开始做,然后做ETL,最后做对应的Reporting System. 虽然最终领导们只看到了他们想要的报表,但是这一套系统是需要DW和ETL的支持的。
BI解决方案的体系结构如下图1和图2所示:
图1:
图2:
2、商业智能的作用和用户
========================
商业智能有什么用,对那些人有用的问题。
商业智能的作用有两个层次,一是在整合系统数据的基础上提供灵活的前端数据展现,即对集成来的数据不做任何处理只是对数据做一个前端的可视化的展现;二是通过对数据的挖掘和处理来产生知识。
BI最终是给什么人使用的。
大部分时候是给决策层和销售人员使用的。
而这些人也是分等级和区域的,所以他们看报表的方向也就是维度会不同。
而这些人也是分等级和区域的,所以他们看报表的方向也就是维度会不同。
3、商业智能的实施方法
======================
完整的BI system:BI技术集合中,包括了ETL、数据仓库、OLAP和数据挖掘,前端展现等等。
实施BI system的方法:1、先做dw建模,做出dw中的数据模型,建好dw表结构;2、用etl开始从source system读取数据到dw表中,形成DW;3、基于DW做各种data application,比如数据挖掘,从data cube做olap,reporting system,data visualization。
实际中的BI system:在具体的项目中,它们(ETL、DW、DataMining、OLAP、DataVisualization)中的若干个结合起来,实现一个完整的BI系统。
4、数据仓库的实现方法及数据仓库中的数据模型
======================================
数据仓库从逻辑上讲是由ODS(Operating Data Storage)、DW(Data Warehouse)、DM(Data Market)三个层次组成。就具体的实体而言,数据仓库包括ODS和DW,ODS是从操作型数据库中直接读取的,DW是对ODS数据做了重新建模、ETL等的,DW是由多个DM做成的。DM是针对某一个主题的数据集。ODS和DW都是整个企业的全部数据,DM只是某个应用自己的数据。
ODS:操作型数据仓库,最早的数据仓库模型。特点是数据模型采取了贴源设计,业务系统数据库数据结构是怎样的,ODS数据库的结构就是怎样的。所不同的是ODS数据库可以提供数据变化的历史,所以ODS数据库中每张表都会增加一个日期类型,表示数据的时点,将每天数据的变化情况都存下来,这样有利于数据的分析。
数据仓库:简称EDW,企业级数据仓库,现在大家都在说的就是这个。所不同的是每个行业的EDW都有一个通用的数据模型,结构精简,扩展性强,应用性强,数据模型不像ODS乃样会有很大的冗余。
数据集市:简称DM,以某个应用为出发点而建设的局部DW,为什么这么说,DM只关心自己需要的数据。不会全盘考虑企业整体的数据架构和应用,每个应用都有自己的DM。所以DM可以基于仓库建设也可以独立建设。
数据仓库中的数据模型其实就是多维数据模型的具体物理表示,比如如果数据仓库建在RDBMS中,那么就用RDBMS中的关系来表示多维数据模型。
5、数据处理和分析相关的技术
=========================
数据处理和分析技术是对数据仓库中的数据进行分析和处理以达到帮助数据使用者的目的,具体就是对数据进行分析和处理以帮助企业的各级决策者进行决策的谜底。主要包括:Reporting System、OLAP、数据挖掘,前端展现,这四个部分逻辑关系如下图所示:
5.1 Reporting System
报表系统具体的含义我目前还不太懂,但是我知道Excel算是一个报表系统。
5.2 OLAP和多维数据模型
OLAP是基于多维数据模型,也就是data cube来做的(多维数据模型和data cube是同一份数据两种不同的表示方式,一种是按照二维表的方式来表示的,cube是按照数据立方体来表示的)。
具体的olap操作包括:Drill-down(下钻、钻取),Roll-up(上卷),Slice(切片),Dice(切块),Pivot(旋转)。
5.3 数据挖掘(data mining)
数据挖掘有很多算法,可以具体看数据挖掘相关的书籍。
5.4 数据可视化
数据可视化也是一个特别大的领域。具体可是方法就两种:表格和图形。
信息图:google charts可以实现一些图形化的表示,能够满足大部分的基础可视化需求。
同时要注意区分信息图和可视化的区别,具体可见http://www.guokr.com/post/81672/
另外,网络数据可视化是一个比较大的研究领域,它把数据中的网络关系用图形的方式表示出来,具体可以参见国科大时磊老师的主页。
6 概念辨析
==========
6.1 商业智能(Business Intelligence)的定义
商业智能的定义有狭义和广义之分。
狭义的商业智能指的是Reporting System,就是基于DW设计的报表系统。是领导们想要看的报表的展现,通过DW中的维度表和事实表,来从不同的维度看领导想要的数据。比如大中华区销售了多少,每个省的KPI怎么样等等。
广义的商业智能指的是整个BI system,包括ETL,DW,相应的Reporting System、OLAP、数据挖掘,还有前端的数据可视化系统。 因为现在一般的公司动不动说上个BI系统,都是要从DW建模开始做,然后做ETL,最后做对应的Reporting System. 虽然最终领导们只看到了他们想要的报表,但是这一套系统是需要DW和ETL的支持的。
6.2 BI和数据仓库DW的关系
整个BI system(广义BI)的backend就是 data warehousing实现的(当然也有例外),包括ETL和datastorage。
人们常说的BI/data warehousing,包括整个流程:从source system读取数据,ETL后存到data store(也就是数据仓库工具,比如hive,当然mysql等RDBMS也可以),然后基于这个data store在frontend有很多BI(狭义BI)的application可以用,比如reporting system,olap,data mining,data visualization等。
总之,从广义BI角度来讲,BI system包括dw;从狭义BI来说,dw是BI的后端,BI是dw的前端,就是地基和房子的关系。
6.3 完整的BI system理论、实施方法和实际中的BI system
完整的BI system:BI技术集合中,包括了ETL、数据仓库、OLAP和数据挖掘,前端展现等等。
实施BI system的方法:1、先做dw建模,做出dw中的数据模型,建好dw表结构;2、用etl开始从source system读取数据到dw表中,形成DW;3、基于DW做各种data application,比如数据挖掘,从data cube做olap,reporting system,data visualization。
实际中的BI system:在具体的项目中,它们(ETL、DW、DataMining、OLAP、DataVisualization)中的若干个结合起来,实现一个完整的BI系统。
6.4 数据仓库
数据仓库从逻辑上讲是由ODS(Operating Data Storage)、DW(Data Warehouse)、DM(Data Market)三个层次组成。就具体的实体而言,数据仓库包括ODS和DW,ODS是从操作型数据库中直接读取的,DW是对ODS数据做了重新建模、ETL等的,DW是由多个DM做成的。DM是针对某一个主题的数据集。ODS和DW都是整个企业的全部数据,DM只是某个应用自己的数据。
ODS:操作型数据仓库,最早的数据仓库模型。特点是数据模型采取了贴源设计,业务系统数据库数据结构是怎样的,ODS数据库的结构就是怎样的。所不同的是ODS数据库可以提供数据变化的历史,所以ODS数据库中每张表都会增加一个日期类型,表示数据的时点,将每天数据的变化情况都存下来,这样有利于数据的分析。
数据仓库:简称EDW,企业级数据仓库,现在大家都在说的就是这个。所不同的是每个行业的EDW都有一个通用的数据模型,结构精简,扩展性强,应用性强,数据模型不像ODS乃样会有很大的冗余。
数据集市:简称DM,以某个应用为出发点而建设的局部DW,为什么这么说,DM只关心自己需要的数据。不会全盘考虑企业整体的数据架构和应用,每个应用都有自己的DM。所以DM可以基于仓库建设也可以独立建设。
6.5 OLAP及多维数据模型
OLAP是基于多维数据模型,也就是data cube来做的(多维数据模型和data cube是同一份数据两种不同的表示方式,一种是按照二维表的方式来表示的,cube是按照数据立方体来表示的)。
具体的olap操作包括:Drill-down(下钻、钻取),Roll-up(上卷),Slice(切片),Dice(切块),Pivot(旋转)。
6.6 BI的用户
首先你要知道,BI最终是给什么人使用的--大部分时候是给决策层和销售人员使用的。
而这些人也是分等级和区域的,所以他们看报表的方向也就是维度会不同。
拿常用的两个维度表时间维度和区域维度来说,大领导可能关注的是一年的各个大区的总的走势(有过去的实际数据分析,也可能有未来的预测数据);而次等级的领导们看的可能只是自己那个区域一年或者一个季度的走势;越往下,粒度会越精细。
所以这就是维度的作用,屁股决定了脑袋。
而这些人也是分等级和区域的,所以他们看报表的方向也就是维度会不同。
拿常用的两个维度表时间维度和区域维度来说,大领导可能关注的是一年的各个大区的总的走势(有过去的实际数据分析,也可能有未来的预测数据);而次等级的领导们看的可能只是自己那个区域一年或者一个季度的走势;越往下,粒度会越精细。
所以这就是维度的作用,屁股决定了脑袋。
6.7 数据仓库和数据库的区别
数据库是一个物理概念,在数据库管理系统中可以建多个数据库,这些数据库可以作为某个应用软件的后端数据库,也可以作为一个数据仓库的物理表示。
数据仓库是一个逻辑概念,它可以用数据库来具体表示,数据仓库可以看成数据库的一个应用。