Apache Flink - 走看看

zoukankan html css js c++ java

Apache Flink
Flink结构：
- flink cli 解析本地环境配置，启动 ApplicationMaster
  
  在 ApplicationMaster 中启动 JobManager
  
  在 ApplicationMaster 中启动YarnFlinkResourceManager
  
  YarnFlinkResourceManager给JobManager发送注册信息
  
  YarnFlinkResourceManager注册成功后，JobManager给YarnFlinkResourceManager发送注册成功信息
  
  YarnFlinkResourceManage知道自己注册成功后像ResourceManager申请和TaskManager数量对等的 container
  
  在container中启动TaskManager
  
  TaskManager将自己注册到JobManager中
  
  接下来便是程序的提交和运行。
- JobManager负责接收 flink 的作业，调度 task，收集 job 的状态、jar 包管理，checkpoint 的协调和发起，管理 TaskManagers。
- 算子：flink 的一个 operator 代表一个最顶级的 API接口。对于streaming，在 DataStream 上做诸如 map/reduce/keyBy 等操作均会生成一个算子。
- TaskManager 在 Flink 中也被叫做一个 Instance，统一管理该物理节点上的所有Flink job的task运行，它的功能包括了task的启动销毁、内存管理、磁盘IO、网络传输管理等等。
- 下方是 Flink 集群启动后架构图：
Graph：
- Flink 中的执行图可以分成四层：StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图。
  
  StreamGraph：是根据用户通过 Stream API 编写的代码生成的最初的图。用来表示程序的拓扑结构。
  
  JobGraph：StreamGraph经过优化后生成了 JobGraph，提交给 JobManager 的数据结构。主要的优化为，将多个符合条件的节点 chain 在一起作为一个节点，这样可以减少数据在节点之间流动所需要的序列化/反序列化/传输消耗。
  
  ExecutionGraph：JobManager 根据 JobGraph 生成ExecutionGraph。方便调度和监控和跟踪各个 tasks 的状态。ExecutionGraph是JobGraph的并行化版本，是调度层最核心的数据结构。
  
  物理执行图：JobManager 根据 ExecutionGraph 对 Job 进行调度后，在各个TaskManager 上部署 Task 后形成的“图”，并不是一个具体的数据结构。
- 2个并发度（Source为1个并发度）的 SocketTextStreamWordCount 四层执行图的演变过程：
  
  StreamGraph：根据用户通过 Stream API 编写的代码生成的最初的图。
  
  StreamNode：用来代表 operator 的类，并具有所有相关的属性，如并发度、入边和出边等。
  
  StreamEdge：表示连接两个StreamNode的边。
  
  JobGraph：StreamGraph经过优化后生成了 JobGraph，提交给 JobManager 的数据结构。
  
  JobVertex：经过优化后符合条件的多个StreamNode可能会chain在一起生成一个JobVertex，即一个JobVertex包含一个或多个operator，JobVertex的输入是JobEdge，输出是IntermediateDataSet。
  
  IntermediateDataSet：表示JobVertex的输出，即经过operator处理产生的数据集。producer是JobVertex，consumer是JobEdge。
  
  JobEdge：代表了job graph中的一条数据传输通道。source 是 IntermediateDataSet，target 是 JobVertex。即数据通过JobEdge由IntermediateDataSet传递给目标JobVertex。
  
  ExecutionGraph：JobManager 根据 JobGraph 生成ExecutionGraph。ExecutionGraph是JobGraph的并行化版本，是调度层最核心的数据结构。
  
  ExecutionJobVertex：和JobGraph中的JobVertex一一对应。每一个ExecutionJobVertex都有和并发度一样多的 ExecutionVertex。
  
  ExecutionVertex：表示ExecutionJobVertex的其中一个并发子任务，输入是ExecutionEdge，输出是IntermediateResultPartition。
  
  IntermediateResult：和JobGraph中的IntermediateDataSet一一对应。一个IntermediateResult包含多个IntermediateResultPartition，其个数等于该operator的并发度。
  
  IntermediateResultPartition：表示ExecutionVertex的一个输出分区，producer是ExecutionVertex，consumer是若干个ExecutionEdge。
  
  ExecutionEdge：表示ExecutionVertex的输入，source是IntermediateResultPartition，target是ExecutionVertex。source和target都只能是一个。
  
  Execution：是执行一个 ExecutionVertex 的一次尝试。当发生故障或者数据需要重算的情况下 ExecutionVertex 可能会有多个 ExecutionAttemptID。一个 Execution 通过 ExecutionAttemptID 来唯一标识。JM和TM之间关于 task 的部署和 task status 的更新都是通过 ExecutionAttemptID 来确定消息接受者。
  
  物理执行图：JobManager 根据 ExecutionGraph 对 Job 进行调度后，在各个TaskManager 上部署 Task 后形成的“图”，并不是一个具体的数据结构。
  
  Task：Execution被调度后在分配的 TaskManager 中启动对应的 Task。Task 包裹了具有用户执行逻辑的 operator。
  
  ResultPartition：代表由一个Task的生成的数据，和ExecutionGraph中的IntermediateResultPartition一一对应。
  
  ResultSubpartition：是ResultPartition的一个子分区。每个ResultPartition包含多个ResultSubpartition，其数目要由下游消费 Task 数和 DistributionPattern 来决定。
  
  InputGate：代表Task的输入封装，和JobGraph中JobEdge一一对应。每个InputGate消费了一个或多个的ResultPartition。
  
  InputChannel：每个InputGate会包含一个以上的InputChannel，和ExecutionGraph中的ExecutionEdge一一对应，也和ResultSubpartition一对一地相连，即一个InputChannel接收一个ResultSubpartition的输出。
查看全文

相关阅读:
apk反编译
 Eclipse Android项目中如如第三方library文件
 layout_gravity属性和gravity属性区别（转载）
android weight 属性正解（转载）
010_01Servlet Request&Response
009_02sendRedirect() forward() include()
009_01Servlet基础简介
 008_02HTTP基础知识
 008_01WEB基础知识
 【实用】让代码变的更加简洁

原文地址：https://www.cnblogs.com/ooffff/p/9476032.html