一次解决spark history server日志不见

zoukankan html css js c++ java

一次解决spark history server日志不见
通过cloudera的旧版VM（centos6版本）跑spark，之后，想看一下日志研究一下job，stage以及task，压力很大的发现完全没有日志，180088页面打开后：

Event log directory: hdfs://quickstart.cloudera:8020/user/spark/applicationHistory
No completed applications found!

　　回过头来还是真心感到spark做得人性化，因为在页面提示中给了两个很重要的信息：一个是spark的日志路径，一个是提示可能是因为权限导致日志无法显示（这个提示没有在贴上面），否则解决这个问题可能要花费更多的时间

　　后来网调发现是因为我使用的是root用户执行的；生成到日志文件到此目录下hdfs://quickstart.cloudera:8020/user/spark/applicationHistory，到此目录下一看用户是root:supergroup；改成spark；再刷http://quickstart.cloudera:18088/即可看到历史任务了；原来是没有权限读入。该权限即可；
　　之前为什么没有这种情况，之前的集群都没有root用户（只要在/user下面添加一个root即可添加hadoop用户），所以运行的时候都报错，于是切换为hdfs用户；hdfs用户生成的文件是hdfs的；
　　但是为什么会有问题？调查得知supergroup一般都是和系统的hadoop组绑定；通过下面的指令查看一下hadoop里面的组员
1 grep 'hadoop:' /etc/group 2 lid -g hadoop
　　你会发现做为hadoop组即superuser组只包含hdfs，hive等并没有spark；但是对于applicationHistory文件夹下权限是-rwxrwx--- 1 root supergroup，也就是只有root用户，以及supergroup具有全部权限，其他没有；所以即使是hdfs创建的文件仍然无法被spark读取，因为spark既不是hdfs，也没有包含在supergroup组中；
　　除非把spark放入到supergroup组中。调查说是和hadoop组绑定，那我就在hadoop组中添加了spark（需要首先启用spark用户）；但是没有毛用。
　　怎么放？Hadoop的HDFS自身是没有用户组控制，用的是操作系统的用户组，这样就意味着：supergroup和本地操作系统用户是有映射关系的，就是在hdfs的配置项中，dfs.permissions.supergroup, dfs.permissions.superusergroup（这两个其实是一个配置内容），默认是supergroup，是的，默认是supergroup，你需要做的是修改为本地一个组，比如hadoop。然后重启HDFS组件，spark服务也一并重启吧。
　　之后你再向hadoop组中添加spark，再刷页面，就发现日志可以看到了。

　　这个问题的关键在于要明白supergroup是和Linux一个组映射；向映射组中添加即可，但是要进行配置映射。
查看全文

相关阅读:
Map集合
 Collections 工具类
 LinkedList 集合
 List集合
 Iterator迭代器
 Collection集合
 时间日期类
 一看就懂！速写docker 容器数据库备份脚本
 Nginx 配置之HTTPS和WSS那些你不知道的事!
https 证书认证/颁发/秒级认证无烦恼

原文地址：https://www.cnblogs.com/xiashiwendao/p/8639258.html