zoukankan      html  css  js  c++  java
  • SparkStreaming概述

      Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备错机制实时流数据的处理。

      ◆ 支持从多种数据源获取数据,包括Kafka、Flume、Twitter、ZeroMQ、Kinesis

      以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join
      和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文
      件系统,数据库等。

    在流数据分成一批一批后,通过一个先进先出的队列,然后 Spark Engine从该
    队列中依次取出一个个批数据,把批数据封装成一个RDD,然后进行处理,这
    是一个典型的生产者消费者模型,对应的就有生产者消费者模型的问题,即如
    协调生产速率和消费速率。    Kafka协调速率

    ◆ 离散流(discretized stream)或DStream
    ◆ 批数据(batch data)
    ◆ 时间片或批处理时间间隔( batch interval)
    ◆ 窗口长度(window length)
    ◆ 滑动时间间隔
    ◆ Input DStream

     DStream(Discretized Stream)离散流
      ◆ 和Spark基于RDD的概念很相似,Spark Streaming使用离散流
      (discretized stream)作为抽象表示,叫做DStream。
      ◆ DStream是随时间推移而收到的数据的序列。在内部,每个时间区间收
      到的数据都作为RDD存在,而DStream是有这些RDD所组成的序列

      

        

      

  • 相关阅读:
    JPA 系列教程1-环境搭建
    微信企业号接收消息(使用SpringMVC)
    oracle xe 数据库用户操作
    eclipse快捷键
    堆和栈的区别(重要)
    synchronized的4种用法
    servlet匹配规则和顺序
    JAVA中的枚举
    JSON对象操作
    Handler
  • 原文地址:https://www.cnblogs.com/Diyo/p/11389124.html
Copyright © 2011-2022 走看看