大数据架构 - 走看看

zoukankan html css js c++ java

大数据架构

前几个月进行的大数据架构的升级：

原来的大数据集群的状况如下：

1）主从模式，从多个日志源采集后，

2）接收端只用了1个flume接收，存储到hdfs上。

3）并不支持实时的数据清洗。

4）存储到hive系统的数据归类不合理，数据没有明显的层级关系，全部从多个源表直接计算输出结果。

另外，原来的同事在保存hdfs时，习惯自己去指定location的方式存储数据，导致后来我们检查某个表的数据存放在哪个路径时，需要查询到partition对应的路径。

5）使用oozie调度

经过改造后的变化如下：

主从模式 -> HA模式

单点flume接收-> load balance

离线数据存储 -> 实时+离线

单库的大表的存储模式 -> 多库多表的仓库模式，hive中的存储由原来的单个default数据库变更为dw_stg,dw_mdl,dw_dm分别对应数据仓库的三层结构。

dw_stg作为数据源收集层，dw_mdl作为清洗层及宽表层，dw_dm作为汇总层.

并且规定，所有数据的存储使用hive仓库的默认路径，如果自己指定location，需要保持与hive表的路径一直。

oozie的调度 -> 增加了oozie调度的监控，每日以邮件方式发送oozie中任务的执行情况。

实时程序监控 -> 通过增加钉钉机器人来实时报警出错信息。对于实时计算的程序，如果出现异常，通过钉钉机器人来实时报警。

以下为整个大数据的架构图：

查看全文

相关阅读:
Scala for the Impatients---(1)Basics
2.2 Markov Chain
2.1 Monte Carlo Integration
1.2 Sampling From Non-standard Distribution
1.1 Built-in Distributions In Matlab
Design Pattern -- Builder
Java Dynamic proxy
The Difference Between Keypoints and Descriptors
gcc -l option vs. -L option: The difference
Stationarity and Independence of Data

原文地址：https://www.cnblogs.com/30go/p/9166188.html