Spark的数据本地化级别及调优操作

zoukankan html css js c++ java

Spark的数据本地化级别及调优操作

1. 数据本地化的级别：

①     PROCESS_LOCAL

task要计算的数据在本进程（Executor）的内存中。

②     NODE_LOCAL

a)         task所计算的数据在本节点所在的磁盘上。

b)        task所计算的数据在本节点其他Executor进程的内存中。

③     NO_PREF

task所计算的数据在关系型数据库中，如mysql。

④     RACK_LOCAL

task所计算的数据在同机架的不同节点的磁盘或者Executor进程的内存中

⑤     ANY

跨机架。

2. Spark数据本地化调优：

Spark中任务调度时，TaskScheduler在分发之前需要依据数据的位置来分发，最好将task分发到数据所在的节点上，如果TaskScheduler分发的task在默认3s依然无法执行的话，TaskScheduler会重新发送这个task到相同的Executor中去执行，会重试5次，如果依然无法执行，那么TaskScheduler会降低一级数据本地化的级别再次发送task。

如上图中，会先尝试1,PROCESS_LOCAL数据本地化级别，如果重试5次每次等待3s,会默认这个Executor计算资源满了，那么会降低一级数据本地化级别到2，NODE_LOCAL,如果还是重试5次每次等待3s还是失败，那么还是会降低一级数据本地化级别到3，RACK_LOCAL。这样数据就会有网络传输，降低了执行效率。

①     如何提高数据本地化的级别？

可以增加每次发送task的等待时间（默认都是3s），将3s倍数调大，      结合WEBUI来调节：

   • spark.locality.wait

   • spark.locality.wait.process

   • spark.locality.wait.node

   • spark.locality.wait.rack

注意：等待时间不能调大很大，调整数据本地化的级别不要本末倒置，虽然每一个task的本地化级别是最高了，但整个Application的执行时间反而加长。

②     如何查看数据本地化的级别？

通过日志或者WEBUI

查看全文

相关阅读:
Git 命令 stash cherry-pick reset rebase
【操作系统】不同语言的线程实现机制对比及数据库锁问题
 【数据结构】搜索二叉树(BST)和普通二叉树的序列化与反序列化
 【自制编译器】读书笔记 -- JavaCC使用的JJ文件格式
 leetcode 874 Robot Simulation
hihocoder 编程挑战赛75
浪漫主义的起源--以赛亚柏林
 【美团笔试 2018-4-20 】编程题-1 测例100%通过欧拉函数求解gcd
【POJ SOJ HDOJ】HDU 2196 Computer 树中的最长路径
 【Java 核心】多线程笔记

原文地址：https://www.cnblogs.com/eric666666/p/11301266.html