zoukankan      html  css  js  c++  java
  • 用户点击行为实时分析系统spark

    系统设计技术有:
    Hadoop2.x
    Zookeeper
    Flume
    Hive
    Hbase
    Kafka
    Spark2.x
    Spark Streaming
    Structured Streaming
    MySQL
    Hue
    JavaEE
    WebSocket
    Echarts

    1.1案例需求分析:

    主要是基于用户浏览新闻的日志信息进行分析的.我们主要的业务需求有以下几个方面:
    完成用户浏览日志信息的收集.
    完成实时分析前20名流量最高的话题.
    完成实时统计当前线上已经曝光的新闻的话题
    完成数据报表的开发

    1.2 系统架构图设计

    调度层:zookeeper 管理工具: 开发工具:IDEA 分析工具:HUE
    展示层: 统计查询/报表 hue 数据可视化分析 h5+echarts
    接口层:通信协议 http/websocket 数据协议:xml/json
    服务层: java/scala
    计算层: 流式计算框架 streaming 离线计算框架 mapreduce 内存计算框架 spark
    统一资源资源管理框架 HDFS
    存储层:分布式消息队列 kafka mysql hbase hive 分布式文件系统hdfs
    采集层:DB数据处理工具sqoop 日志采集框架 flume
    数据源层: database logfile

     1.3 系统数据流程设计

    实时流:
    应用服务 ---- flume ----kafka zookeeper----yarn sparking streaming scala--- mysql hbase--websocket--h5+echarts页面展示

    离线流:
    应用服务 ---- flume---hbase zookeeper--hdfs--mapreduce spark sql hive yarn --hue --mysql -java服务-bi报表

  • 相关阅读:
    CVE-2019-0708
    windows powershell的常用命令
    sqli-lab(8)
    DVWA--CSP Bypass
    认清自己
    sqli-libs(7)
    DVWA--upload
    sqli-labs(6)
    python学习之路(22)
    BZOJ2434:[NOI2011]阿狸的打字机——题解
  • 原文地址:https://www.cnblogs.com/daiwei1981/p/10033735.html
Copyright © 2011-2022 走看看