zoukankan      html  css  js  c++  java
  • 2、初始流处理

    1、业务现状分析

      需求:

        统计主站指定课程访问的客户端(PC、APP)、地域信息分布  

          地域:从 ip 解析省市

          客户端:useragent获取

      实现:

        收集课程编号,客户ip信息、ueragent,通过MR或spark统计分析

      技术:

        日志收集:Flume

        离线分析:MR或spark

        结果通过图形化界面展示

      问题:

        小时级别或分钟级别,MR或spark或许可以,对于实时或准实时则不行,需要采用流式处理框架,

        如sparkstreaming可实现秒级别的数据处理

    2、实时流处理产生背景

      实时性要求高:电信流量包推荐、电商商品营销(此类业务周期短)

      数据量大:还要保证数据准确性

    3、实时流处理概述

      实时计算:秒级别、毫秒级别,延迟低

      流式计算:数据是一直进的,不会停止

      实时流式计算:在产生的实时数据流上进行计算

    4、离线和实时计算的对比

      1、数据来源

        离线:hdfs历史数据  数据量大

        实时:kafka等消息队列中

      2、处理过程

        离线:MR

        实时:离散流

      3、处理速度

        离线:慢

        实时:快

      4、进程

        离线:启动 + 销毁

        实时:7*24

    5、实时流处理框架对比

      storm:每次一条数据

      sparkstreaming:微批

      flink:实时或离线

    6、技术选型

         

    7、行业中应用

      电信:流量实时计算,并返回给用户,外加推荐套餐或其他增值服务

      电商:实时推荐

    渐变 --> 突变
  • 相关阅读:
    最小生成树(prim算法)C语言实现
    图的十字链表存储(C语言)
    打算做一款给方便学生生活的APP,虽然已经有口袋小安了,但是并没有我想要的功能。。。
    腾讯云Ubuntu安装JDK和Tomcat
    新浪微博配图批量下载
    Algorithms in C第一章笔记
    Java笔记
    稍微记录一下effective c++的一些东西
    总结,并加油
    苹果Xcode帮助文档阅读指南
  • 原文地址:https://www.cnblogs.com/lybpy/p/9862404.html
Copyright © 2011-2022 走看看