zoukankan      html  css  js  c++  java
  • Spark Streaming揭秘 Day2-五大核心特征

    Spark Streaming揭秘 Day2

    五大核心特征

    引子

    书接上回,Streaming更像Spark上的一个应用程序,会有多个Job的配合,是最复杂的Spark应用程序。让我们先从特征角度进行理解。

    特征1:逻辑管理

    DStream是对RDD封装的集合,作用于DStream的操作会对其中每个RDD进行作用,DStream Graph就是RDD Graph的模板,其逻辑管理完全继承RDD的DAG关系。

    特征2:时间管理

    Spark Streaming的最大特征是引入了时间属性,DStream在RDD的基础上增加了时间纬度,随着时间的纬度,不断把模板实例化,通过动态Job控制器运行作业。

    20160502_2

    特征3:流式输入和输出

    以InputStream和OutputStream为核心,进行流式的数据输入输出。
    20160502_1

    特征4:高容错

    具体Job运行在Spark Cluster之上,此时系统容错就至关重要。主要思路:

    • 限流
    • 根据需要调整资源安排

    特征5:事务处理

    在处理出现崩溃的情况下确保Exactly once的事务语义。主要通过检查点等技术实现。

    透析

    DStream是逻辑级别的,RDD是物理级别的,随着时间的流逝,对每个Batch Interval产生RDD进行Transform操作,进而产生了DAG依赖关系,Job Scheduler通过时间调度,根据DAG关系将作业发布到Spark集群上去运行,不断产生Spark作业。

    欲知后事如何,且听下回分解

    DT大数据每天晚上20:00YY频道现场授课频道68917580

  • 相关阅读:
    627. whose 和 who's
    628. why 和why not
    629 will: 各种用法tyg
    enChapter 3 Underlying Technologiesp
    使用VIEWER.JS进行简单的图片预览
    outlook2010设置失败后重新设置
    新增和编辑clob字段
    金钱大写
    pivot 与 unpivot 函数是SQL05新提供的2个函数
    从函数到委托
  • 原文地址:https://www.cnblogs.com/dt-zhw/p/5453382.html
Copyright © 2011-2022 走看看