zoukankan      html  css  js  c++  java
  • 大数据架构

    前几个月进行的大数据架构的升级:

    原来的大数据集群的状况如下:

    1)主从模式,从多个日志源采集后,

    2)接收端只用了1个flume接收,存储到hdfs上。

    3)并不支持实时的数据清洗。

    4)存储到hive系统的数据归类不合理,数据没有明显的层级关系,全部从多个源表直接计算输出结果。

         另外,原来的同事在保存hdfs时,习惯自己去指定location的方式存储数据,导致后来我们检查某个表的数据存放在哪个路径时,需要查询到partition对应的路径。

    5)使用oozie调度

    经过改造后的变化如下:

    主从模式 -> HA模式

    单点flume接收-> load balance

    离线数据存储 -> 实时+离线

    单库的大表的存储模式 -> 多库多表的仓库模式,hive中的存储由原来的单个default数据库变更为dw_stg,dw_mdl,dw_dm分别对应数据仓库的三层结构。

                                            dw_stg作为数据源收集层,dw_mdl作为清洗层及宽表层,dw_dm作为汇总层.

                                             并且规定,所有数据的存储使用hive仓库的默认路径,如果自己指定location,需要保持与hive表的路径一直。

    oozie的调度 -> 增加了oozie调度的监控,每日以邮件方式发送oozie中任务的执行情况。

    实时程序监控 -> 通过增加钉钉机器人来实时报警出错信息。对于实时计算的程序,如果出现异常,通过钉钉机器人来实时报警。

    以下为整个大数据的架构图:

  • 相关阅读:
    一分钟理解APM,把流失的用户找回来
    oauth2.0在监控宝项目中的应用一例
    数据路由,你造吗?
    Laravel的Ioc设计
    java使用默认线程池踩过的坑(三)
    java使用默认线程池踩过的坑(二)
    java使用默认线程池踩过的坑(一)
    hadoop中mapreduce的常用类(二)
    hadoop中mapreduce的常用类(一)
    16.9.5上午
  • 原文地址:https://www.cnblogs.com/30go/p/9166188.html
Copyright © 2011-2022 走看看