计划撰写内容:1.平台使用的技术体系及其组成的架构;2.平台的数据体系(架构);3.主要技术的介绍
1.集群概述
Hadoop集群在于其生态组件的丰富性,目前,我们平台已经部署包含采集、存储、计算、资源管理相关的hadoop、hdfs、hive、hbase、yarn、zookeeper、sqoop、flume、storm、spark、kafka等组件。
其中hadoop、hdfs、hive、sqoop 是我们目前最直接常用的组件。
一二期阶段,Hive是我们建设大数据仓库首选加工语言,Sqoop用来实现Oracle和Hive的数据交换,目前我们处于此阶段。
三期阶段,我们计划建设实时类数据采集加工服务,将采用flume、kafka、storm、spark等技术。
2.服务架构
当我们把系列技术优化整合成功用来解决相关业务需求的时候,就形成了一套完整的服务架构。
以下内容严格意义上属于公司内部知识,但尚未涉及知识侵权,适当调整与大家分享学习。
2.1总体架构
2.2技术体系
2.3数据体系
(电信运营联通的大数据仓库体系,由我们公司总部大数据专家建设,省分参考落地)
2.4数据服务
3.平台规划采集内容
3.1 传统结构化经营数据
重心 70%
3.2 半结构化上网日志数据
20% (json等格式)
dpi解析(深度报文解析)---url(app网站)、关键词
3.3 非结构化上网行为数据
10% 文本挖掘、搜索关键词、热点词频等
暂未涉及
参考知识:MPP数据库与SMP数据库
1.大规模并行处理(MPP:Massively Parallel Processor )
目前常见的MPP架构数据库:
1.GreenPlum
2.DB2 DPF架构数据库(DB2的多分区数据库)
3.vertica mpp数据库
(其他:GBase 8a cluster、xCloud、infindb(开源)、infobright(开源))
MPP数据库特点:
1.全部基于PostgreSQL或自行定义的类SQL语言
2.都是基于列的存储(Columnar Storage)
3.操作都是以Scan为基础,依赖Compression来提供性能的优化
列存数据库:
GreenPlum、GBase 8a、xCloud、infindb(开源)、infobright(开源)
xCloud(行云)是我们公司自主研发的列存储数据库。
列式数据库是以列相关存储架构进行数据存储的数据库,主要适合与批量数据处理和即席查询。
列式数据库从一开始就是面向大数据环境下数据仓库的数据分析而产生,它跟行式数据库相比当然也有一些前提条件和优缺点.
列式数据库优点:
极高的装载速度 (最高可以等于所有硬盘IO 的总和,基本是极限了)
适合大量的数据而不是小数据
实时加载数据仅限于增加(删除和更新需要解压缩Block 然后计算然后重新压缩储存)
高效的压缩率,不仅节省储存空间也节省计算内存和CPU.
非常适合做聚合操作.
2.对称多处理(SMP:Symmetrical Multi-Processing)
Oracle等是基于此架构。
这些都是指服务器的架构。
从系统架构来看,目前的商用服务器大体可以分为三类,即:
对称多处理器结构(SMP:Symmetric Multi-Processor)
非一致存储访问结构(NUMA:Non-Uniform Memory Access)
以及海量并行处理结构(MPP:Massive Parallel Processing)