2、初始流处理

zoukankan html css js c++ java

2、初始流处理

1、业务现状分析

　　需求：

　　　　统计主站指定课程访问的客户端（PC、APP）、地域信息分布　　

　　　　　　地域：从 ip 解析省市

　　　　　　客户端：useragent获取

　　实现：

　　　　收集课程编号，客户ip信息、ueragent，通过MR或spark统计分析

　　技术：

　　　　日志收集：Flume

　　　　离线分析：MR或spark

　　　　结果通过图形化界面展示

　　问题：

　　　　小时级别或分钟级别，MR或spark或许可以，对于实时或准实时则不行，需要采用流式处理框架，

　　　　如sparkstreaming可实现秒级别的数据处理

2、实时流处理产生背景

　　实时性要求高：电信流量包推荐、电商商品营销（此类业务周期短）

　　数据量大：还要保证数据准确性

3、实时流处理概述

　　实时计算：秒级别、毫秒级别，延迟低

　　流式计算：数据是一直进的，不会停止

　　实时流式计算：在产生的实时数据流上进行计算

4、离线和实时计算的对比

　　1、数据来源

　　　　离线：hdfs历史数据数据量大

　　　　实时：kafka等消息队列中

　　2、处理过程

　　　　离线：MR

　　　　实时：离散流

　　3、处理速度

　　　　离线：慢

　　　　实时：快

　　4、进程

　　　　离线：启动 + 销毁

　　　　实时：7*24

5、实时流处理框架对比

　　storm：每次一条数据

　　sparkstreaming：微批

　　flink：实时或离线

6、技术选型

7、行业中应用

　　电信：流量实时计算，并返回给用户，外加推荐套餐或其他增值服务

　　电商：实时推荐

渐变 --> 突变

查看全文

相关阅读:
转载：人家编写的程序：「雀神 AI」Suphx
一千六百万单表建联合索引对查询效率的提升
 索引对单列极值查询的显著性影响（百万级别表单列最值查询 Cost由1405变成3）
经典SQL问题：Top 10%
区间查询与等效minus查询
 『科学计算』L0、L1与L2范数_理解
 『Python』__getattr__()特殊方法
 『Json』常用方法记录
 『Pickle』数据结构持久化模块_常用方法记录
 『Re』知识工程作业_主体识别

原文地址：https://www.cnblogs.com/lybpy/p/9862404.html