zoukankan      html  css  js  c++  java
  • 2、初始流处理

    1、业务现状分析

      需求:

        统计主站指定课程访问的客户端(PC、APP)、地域信息分布  

          地域:从 ip 解析省市

          客户端:useragent获取

      实现:

        收集课程编号,客户ip信息、ueragent,通过MR或spark统计分析

      技术:

        日志收集:Flume

        离线分析:MR或spark

        结果通过图形化界面展示

      问题:

        小时级别或分钟级别,MR或spark或许可以,对于实时或准实时则不行,需要采用流式处理框架,

        如sparkstreaming可实现秒级别的数据处理

    2、实时流处理产生背景

      实时性要求高:电信流量包推荐、电商商品营销(此类业务周期短)

      数据量大:还要保证数据准确性

    3、实时流处理概述

      实时计算:秒级别、毫秒级别,延迟低

      流式计算:数据是一直进的,不会停止

      实时流式计算:在产生的实时数据流上进行计算

    4、离线和实时计算的对比

      1、数据来源

        离线:hdfs历史数据  数据量大

        实时:kafka等消息队列中

      2、处理过程

        离线:MR

        实时:离散流

      3、处理速度

        离线:慢

        实时:快

      4、进程

        离线:启动 + 销毁

        实时:7*24

    5、实时流处理框架对比

      storm:每次一条数据

      sparkstreaming:微批

      flink:实时或离线

    6、技术选型

         

    7、行业中应用

      电信:流量实时计算,并返回给用户,外加推荐套餐或其他增值服务

      电商:实时推荐

    渐变 --> 突变
  • 相关阅读:
    error_reporting(“E_ALL”)和ini_set(“display_errors”, “on”)的区别?
    linux命令awk的详解
    Ubuntu 能PING IP但不能PING主机域名的解决方法
    从github checkout子文件夹
    zuul简单使用
    docker for windows 10 添加阿里云镜像仓库无效问题
    Spring Boot 进行Bean Validate和Method Validate
    JVM调优-GC参数
    Spring Aop: 关于继承和execution target this @annotation
    ReentrantLock原理
  • 原文地址:https://www.cnblogs.com/lybpy/p/9862404.html
Copyright © 2011-2022 走看看