zoukankan      html  css  js  c++  java
  • Spark Streaming源码分析 – JobScheduler

    先给出一个job从被generate到被执行的整个过程
    在JobGenerator中,需要定时的发起GenerateJobs事件,而每个job其实就是针对DStream中的一个RDD,发起一个SparkContext.runJob,通过对DStream中每个RDD都runJob来模拟流处理

    再看个outputStream的具体实现

    saveAsTextFiles

    最后,再强调一下RDD中执行中如果从InputDStream取到数据的,就全打通了
    就再看看NetworkInputDStream.compute是如何最终获取数据的

    JobScheduler
    SparkStreaming的主控线程,用于初始化和启动,JobGenerator和NetworkInputTracker
    分别用于,产生并定时提交job,和从InputDStream不断读取数据


    JobGenerator

     

    DStreamGraph
    用于track job中的inputStreams和outputStreams,并做为DStream workflow对外的接口
    最关键的接口是generateJobs

  • 相关阅读:
    《TomCat与Java Web开发技术详解》(第二版) 第六章节的学习总结 ---- JSP技术
    《Lucene in Action 第二版》第三章节的学习总结----IndexSearcher以及Term和QueryParser
    《TomCat与Java Web开发技术详解》(第二版) 第六章节对应CD附带的helloapp无法启动的问题解决
    《TomCat与Java Web开发技术详解》(第二版) 第五章节的学习总结 ---- Servlet的高级用法
    《Lucene in Action》(第二版) 第二章节的学习总结 ---- IndexWriter+Document+Field
    《Lucene in Action》(第二版) 第一章节的学习总结 ---- 用最少的代码创建索引和搜索
    Windows Server 2008 R2 配置AD(Active Directory)域控制器
    Windows Server 2008 R2 负载平衡入门篇
    Asp.net MVC 的八个扩展点
    C# 使用memcache(memcache安装)
  • 原文地址:https://www.cnblogs.com/fxjwind/p/3592177.html
Copyright © 2011-2022 走看看