zoukankan      html  css  js  c++  java
  • 流式计算概述

    流式计算概述

    流式计算的系统设计和实现(内存计算)

    增量计算、流式计算、批量计算的区别?

    • 流式计算(流式计算是一种特殊的增量计算)

    利用分布式的思想和方法,对海量“流”式数据进行实时处理,源自业务对海量数据,在“时效”的价值上的挖掘诉求

    • 实时计算(ad-hoc computing,计算不可枚举,计算在query时发生)

    数据的实时计算,支持在大数据集的在线复杂实时计算(实时数据的实时计算)

    • 增量计算
    优势:
    1. 中间计算结果实时产出
    2. 时效性强
    3. 平摊计算
    4. 中间计算状态不膨胀
    5. 有状态的failover(容错效率高)
    6. 批次运算(将整个数据进行recomputing,克服数据倾斜能力,降低数据倾斜对整个计算性能的退化的影响)

    增量计算与流式计算

    应用场景
    1. 日志采集与在线分析
    2. 大数据的预处理
    3. 风险监测与告警(对交易业务的虚假交易进行实时监测与分析)
    4. 网站与移动应用统计分析(双11运营、淘宝量子统计等各类统计业务分析中,提供实时的业务统计分析报表)
    5. 网络安全监测(实时监控、实时分析、实时监测、实时对抗、在线服务计量与计费管理系统)
    6. 工业4.0(实时计算、流式计算)
    7. 物联网(实时计算、流式计算)
    特点
    1.数据特点 --> 流

    由业务产生的有向无界的数据流

    1. 不可控性

    到达时机:不同的数据通路,到达的时机完全不可控
    UPDATE语句:对系统后续的设计、容错及语义方面产生极大的影响
    相关数据顺序
    数据质量
    数据规模
    离线计算、批量计算:数据仓库的质量体系构筑的比较完善

    1. 体系缺失

    数据源的治理
    数据质量的治理

    1. 时效性要求(对整个计算处理的数据力度,有更高的要求)

    容错方案
    体系结构
    结果输出

    2.处理粒度最小

    对整个系统架构具有决定性影响

    3.处理算子对状态的影响不同
    1. 无状态计算
    2. 有状态计算
    3. 数据进入顺序有要求
    4.输出要求
    1. 一致性
    2. 连贯性
    5.计算特点
    1. 时效性:高
    2. 质量:准
    3. 容错:稳
    4. 多样性:多(精确、只多不少、丢sla)
  • 相关阅读:
    1094. Car Pooling
    121. Best Time to Buy and Sell Stock
    58. Length of Last Word
    510. Inorder Successor in BST II
    198. House Robber
    57. Insert Interval
    15. 3Sum java solutions
    79. Word Search java solutions
    80. Remove Duplicates from Sorted Array II java solutions
    34. Search for a Range java solutions
  • 原文地址:https://www.cnblogs.com/Mrbelong/p/7605244.html
Copyright © 2011-2022 走看看