zoukankan      html  css  js  c++  java
  • 2、初始流处理

    1、业务现状分析

      需求:

        统计主站指定课程访问的客户端(PC、APP)、地域信息分布  

          地域:从 ip 解析省市

          客户端:useragent获取

      实现:

        收集课程编号,客户ip信息、ueragent,通过MR或spark统计分析

      技术:

        日志收集:Flume

        离线分析:MR或spark

        结果通过图形化界面展示

      问题:

        小时级别或分钟级别,MR或spark或许可以,对于实时或准实时则不行,需要采用流式处理框架,

        如sparkstreaming可实现秒级别的数据处理

    2、实时流处理产生背景

      实时性要求高:电信流量包推荐、电商商品营销(此类业务周期短)

      数据量大:还要保证数据准确性

    3、实时流处理概述

      实时计算:秒级别、毫秒级别,延迟低

      流式计算:数据是一直进的,不会停止

      实时流式计算:在产生的实时数据流上进行计算

    4、离线和实时计算的对比

      1、数据来源

        离线:hdfs历史数据  数据量大

        实时:kafka等消息队列中

      2、处理过程

        离线:MR

        实时:离散流

      3、处理速度

        离线:慢

        实时:快

      4、进程

        离线:启动 + 销毁

        实时:7*24

    5、实时流处理框架对比

      storm:每次一条数据

      sparkstreaming:微批

      flink:实时或离线

    6、技术选型

         

    7、行业中应用

      电信:流量实时计算,并返回给用户,外加推荐套餐或其他增值服务

      电商:实时推荐

    渐变 --> 突变
  • 相关阅读:
    ryu 下发流表配置
    openstack kolla 部署---不同的节点采用不同的物理接口
    kolla 安装
    Ubuntu add-apt-repository: command not found
    大前端发展趋势
    这些优化技巧可以避免我们在 JS 中过多的使用 IF 语句
    asap异步执行实现原理
    为什么 JS 对象内部属性遍历的顺序乱了
    你可能忽略的 async/await 问题
    深入浅出JS原型链
  • 原文地址:https://www.cnblogs.com/lybpy/p/9862404.html
Copyright © 2011-2022 走看看