zoukankan      html  css  js  c++  java
  • 用户点击行为实时分析系统spark

    系统设计技术有:
    Hadoop2.x
    Zookeeper
    Flume
    Hive
    Hbase
    Kafka
    Spark2.x
    Spark Streaming
    Structured Streaming
    MySQL
    Hue
    JavaEE
    WebSocket
    Echarts

    1.1案例需求分析:

    主要是基于用户浏览新闻的日志信息进行分析的.我们主要的业务需求有以下几个方面:
    完成用户浏览日志信息的收集.
    完成实时分析前20名流量最高的话题.
    完成实时统计当前线上已经曝光的新闻的话题
    完成数据报表的开发

    1.2 系统架构图设计

    调度层:zookeeper 管理工具: 开发工具:IDEA 分析工具:HUE
    展示层: 统计查询/报表 hue 数据可视化分析 h5+echarts
    接口层:通信协议 http/websocket 数据协议:xml/json
    服务层: java/scala
    计算层: 流式计算框架 streaming 离线计算框架 mapreduce 内存计算框架 spark
    统一资源资源管理框架 HDFS
    存储层:分布式消息队列 kafka mysql hbase hive 分布式文件系统hdfs
    采集层:DB数据处理工具sqoop 日志采集框架 flume
    数据源层: database logfile

     1.3 系统数据流程设计

    实时流:
    应用服务 ---- flume ----kafka zookeeper----yarn sparking streaming scala--- mysql hbase--websocket--h5+echarts页面展示

    离线流:
    应用服务 ---- flume---hbase zookeeper--hdfs--mapreduce spark sql hive yarn --hue --mysql -java服务-bi报表

  • 相关阅读:
    PHP0002:PHP基础1
    NodeJS_0001:关于install的方式
    JN_0018:运行窗口不显示
    事务、事务操作、事务隔离级别
    MySQL 常见的两种存储引擎
    8:二叉树的下一个节点
    链表
    文件压缩
    MapReduce--Shuffle原理
    volatile关键字
  • 原文地址:https://www.cnblogs.com/daiwei1981/p/10033735.html
Copyright © 2011-2022 走看看