一:端口4040
1.意思
其中4040端口代表的含义是application UI
是应用程序界面。
包含Jobs,Stages,environment,System,SQL等。
二:应用结构
1.Mapreduce的应用结构
一个Application就是一个Job
一个Job由MapTask和ReduceTask两部分构成
2.Spark的三个网页页面
MasterWebUI:http://192.168.187.146:8080/
HistoryWebUI:http://192.168.187.146:18080/
DriverWebUI: http://192.168.187.146:4040/(默认)
3.Spark的应用程序
一个Application(就是一个通过spark-submit提交的一个请求)
一个Application中存在多个Job
一个Job由多个Stage阶段构成
一个Stage就是在可以一起运行的一段代码
一个Stage中存在多个Task任务
4.Task的实质
Task实质上就是分区;
Task和Partition从两个方面来描述分区,Task从代码逻辑上,Partition从数据的分布;
不同分区来讲,task的区别在于输入数据的不同,处理逻辑一样
5.Spark的进程
Driver:负责SparkContext的初始化以及Job调度
不是RDD的方法都在Driver中运行
Executors:负责具体SparkTask任务执行的进程,Task以线程的形式在Executor中执行
RDD的方法在Executors中运行