zoukankan      html  css  js  c++  java
  • Spark Client启动原理探索

    经过几天闲暇时间的学习,终于又理解的深入了一些,关于Spark Client如何提交作业也更清晰了点。

    在整体的流程图上是这样的:

    大体的思路就是应用程序通过SparkSubmit提交程序后,自动在当前的JVM中启动Driver,然后与Master通信创建Excutor执行相应的任务。

    自己整理了下流程图

    以及的组件图:

    可以看到大概是下面的步骤:

    1. 新建SparkContext
    2. 创建对应的scheduler和schedulerBackend
     val (sched, ts) = SparkContext.createTaskScheduler(this, master, deployMode)
    _schedulerBackend = sched
    _taskScheduler = ts
    ...
    _taskScheduler.start()
    
    1. 启动scheduler的start方法,内部调用backend的start方法
    2. backend调用父类CoarseGrainedSchedulerBackend的start方法
    override def start() {
      super.start()
      ...
      client = new StandaloneAppClient(sc.env.rpcEnv, masters, appDesc, this, conf)
      client.start()
    }
    
    1. 创建对应的drvierEndpoint
    2. 在backend的start()方法里面创建StandaloneAppClient
    3. 执行StanaloneAppClient对象的start方法,内部创建ClientEndpoint

    DriverEndpoint和ClientEndpoint都会跟Master进行通信,接下来的处理就是编译驱动程序的代码,发送给excutor进行相应的处理。

  • 相关阅读:
    liunx各命令及全称
    window启动数据库服务命令
    拉取github指定分支上的代码
    python项目学习
    客户展示 增删改查
    登录 注册功能 表梳理
    java简历
    go语言数组
    go语言 变量作用域
    go语言函数
  • 原文地址:https://www.cnblogs.com/xing901022/p/8319482.html
Copyright © 2011-2022 走看看