Spark任务调度 - 走看看

zoukankan html css js c++ java

Spark任务调度
　　不多说，直接上干货！

Spark任务调度

　　　　　　　　　　

DAGScheduler

　　构建Stage—碰到shuffle就split

　　记录哪个RDD 或者Stage 输出被物化

　　重新提交shuffle 输出丢失的stage

　　将Taskset 传给底层调度器

　　本地性策略--- preferredLocations(p)
1.spark-cluster TaskScheduler 2.yarn-cluster YarnClusterScheduler 3.yarn-client YarnClientClusterScheduler
TaskScheduler

　　为每一个TaskSet 构建一个TaskSetManager 实例管理这个TaskSet 的生命周期

　　数据本地性决定每个Task 最佳位置(process-local, node-local, rack-local and then and any

　　提交taskset( 一组task) 到集群运行并监控

　　推测执行，碰到straggle 任务放到别的节点上重试

　　出现shuffle 输出lost 要报告fetch failed 错误

ScheduleBacked

　　实现与底层资源调度系统的交互(YARN，mesos等)

　　配合TaskScheduler实现具体任务执行所需的资源分配(核心接口receiveOffers)

　　详细过程

实例分析
val lines = ssc.textFile(args(1)) // 输入 val words = lines.flatMap(x =>x.split(" ")) words.cache() // 缓存 val wordCounts = words.map(x =>(x, 1) ) val red = wordCounts.reduceByKey( (a,b)=>{a + b} ， 8) red.saveAsTextFile(“/root/Desktop/out” ， 8) // 行动
查看全文

相关阅读:
【爬虫】新闻统计
 python pip 出错 "Can't connect to HTTPS URL because the SSL module is not available.
【sql server复制】sql server复制【最佳实践】
mybase个人数据库笔记工具下载
 sqlserver脱机时ldf文件丢失重建
 sqlserver CTE定位点类型和递归部分的类型不匹配
 mysql物理存储（页区段）
sql server update与delete引发的死锁
 Linux学习笔记（19）linux定时任务（crontab）
mysql工具生态

原文地址：https://www.cnblogs.com/zlslch/p/6941387.html

Copyright © 2011-2022 走看看