Spark---架构原理

zoukankan html css js c++ java

Spark---架构原理
Spark核心组件

1、Driver
我们编写的Spark程序就在Driver上 Spark集群节点之一，就是你提交的Spark程序的机器
2、Master
Master是个进程 Master其实主要负责资源的调度和分配，还有集群的监控，等职责
3、Worker
Worker是个进程主要是负责是2个：一个是用自己的内存，存储RDD的某个或者某些pardition。另一个是启动其他进程和线程，对RDD上的Pardition进行版型的处理和计算
4、Executor

4、Task
Executor是一个进程 Executor和Task，其实就是还行负责，对RDD的Partition进行并行的计算也就是执行我们对RDD定义的，比如：map,flatMap,reduce等算子操作
1：Driver程序启动后，会做一些初始化的操作，在这个过程中，就会发送请求到Master上，进行Spark应用程序的注册，说白了，就是让Master知道，有一个新的Spark程序要运行。

2：Master，在接收到了Spark应用程序的注册申请之后，会发送请求给Worker，进行资源的调度和分配。说白了，说穿了，资源分配就是Executor的分配。

3：Executor启动之后，会向Driver进行反注册，这样，Driver就知道，哪些Executor是为他进行服务的了。

4：Driver注册了一些Executor之后就可以开始正式执行我们的spark应用程序了。首先第一步就是，创建RDD，读取数据源（HDFS），然后HDFS文件被读取到多个worker节点中去，形成内存中的分布式数据集，也就是初始RDD。

5：Drvier会根据我们对RDD定义的操作，提交一大堆task去executor上。，Executor接收到task之后，会启动多个线程来执行task.

task就会对RDD的partition数据执行指定的算子操作，形成新的RDD的partition.
查看全文

相关阅读:
[引用]SQLServer占CPU100%
负能量程序员杂谈(2)- 管理中的情和义
 负能量程序员杂谈(1)-世界上最单纯的职业：程序员
 FLV文件格式官方规范详解
 rtmp官方标准规范详细解析
 万恶的KPI、新兴的OKR及让人纠结的程序员考核
 管理点滴（一）
选拨管理者的一个必要条件
 团队管理的简单总结：少即是多，体力透支，负能量管理，自我进化团队，沟通
 我的2015计划，目标

原文地址：https://www.cnblogs.com/yeszero/p/6991782.html