由于目前spark的历史服务所在的机器内存不太够,导致spark的hisstory server经常卡死。所以决定将该服务迁移到一台内存稍微多点的机器上,并将historyserver内存由原来的3g调整为8g,下面开始记录一下本次操作过程的步骤,方便以后进行查阅. 我们的生产环境采用的是spark on yarn的模式.
1. 首先查看一下原本historyserver的启动用户:启动用户为hadoop, 所以后续的进程启动也应该是hadoop用户,这点绝对不能错
2. 将spark文件夹copy到hadoop2-client机器,修改权限为chown -R hadoop:hadoop spark-2.1.0-bin-hadoop2.7/ , 后续切换到hadoop账号进行操作
3. 开始修改spark的配置文件:
配置spark-defaults.conf:
spark.eventLog.enabled=true
spark.eventLog.compress=true
spark.eventLog.dir=hdfs://xxx/sparklogs ##sparklogs目录要提前创建
spark.yarn.historyServer.address=hadoop2-client:18080
##hadoop2-client:18080指的是historyserver的地址,所以要在hadoop2-client上启动historyserver
注:在conf/spark-defaults.conf配置文件中,每行是key-value对,中间可以是用空格进行分割,也可以直接用等号进行分割;
配置spark-env.sh
export SPARK_DAEMON_MEMORY=8g ##设置histroyserver的内存
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=50 -Dspark.history.fs.logDirectory=hdfs://xxx/sparklogs"
注:以spark.history开头的需要配置在spark-env.sh中的SPARK_HISTORY_OPTS,以spark.eventLog开头的配置在spark-defaults.conf;
4.停止原来的historyserver,然后将修改完成之后将这两个配置文件copy到其它机器的spark配置中
5.在新的机器上启动Historyserver:
启动:在hadoop2-client上执行:sbin/start-history-server.sh ###进程名为HistoryServer
一个问题:spark.history.fs.logDirectory和spark.eventLog.dir指定目录有啥区别?
spark.eventLog.dir:Application在运行过程中所有的信息均记录在该属性指定的路径下;
spark.history.fs.logDirectory:Spark History Server页面只展示该指定路径下的信息;
参考:
http://blog.csdn.net/guanjunjian59/article/details/51427044
http://blog.csdn.net/oufuji/article/details/50370490