zoukankan      html  css  js  c++  java
  • HDFS集群常见异常及排查步骤

    1.问题一: 权限问题。比如hdfs需要写入目录的权限不足,本地目录工作异常,(权限问题),出现异常后大家不要看到一堆错误代码就心慌,不必害怕。hadoop目录下有个日志文件夹. 如果那个节点 出现问题就查看日志信息。 tail  -F  /XXX.log    tail -F 可以动态监控文件内容的变化。

    2.问题二: 文件属主不一致。比如文件是普通用户修改的或者文件没有相应的权限。root用户就无法实现读取或写入功能。 可以用文件所有者赋予权限:  chown  +  username xxx.

    3.问题三: 比如上传文件,报错。NameNode is  safe mode.   这是因为集群处于安全模式下,安全模式下禁止对文件的任何操作,包括写and 删除等操作。这时候需要退出安全模式。

     退出安全模式的命令:  hdfs  dfsadmin  -safemode  leave。                    查看集群的状态信息   hdfs   dfsadmin   -report 。  集群刚启动DN会向NN汇报一些信息处于安全模式是正常的,如果集群启动后还是不退出就出现异常了。需要手动退出安全模式。  可以查看日志信息或重启集群。

    4.问题四:  启动start-dfs.sh 后上传文件,发现上传失败。报异常错误。就尝试把tmp目录删除后重新格式化。  hadoop   namenode  -format 

    5.问题五: 用JPS (jps) 小写查看进程是否正常出现。如果出现后隔几秒就挂掉,说明进程异常。可以查看对应的日志。在logs目录下。

    6.问题六: 如果进程不存在,就查看相关进程日志文件来分析错误。如果进程存在还是有问题,可能是进程间的集群协调有问题。可以通过查看集群的报告信息。

       hdfs  dfsadmin   -report

    7.问题七: 如果进程正常出现,但是执行文件上传下载还是有问题。就查看进程是否正常可用。  用指令hdfs  dfsadmin   -report  查看对应的进程是否可用的状态。可能是集群刚启动,进程还没有加入到集群的 原因。可用尝试重新上传或下载文件测试。

    8问题八: 如果实在找不到原因就尝试把tmp目录删掉,重新格式化集群,再次启动集群。 前提是linux系统的环境正常。

    欢迎补充哦

  • 相关阅读:
    VS2010安装SP1后无法安装VS2010 SDK
    c#异常机制
    精简2003,安装后控制面板无效,点击控制面板就闪一下,返回桌面
    转载 Microsoft .NET Pet Shop 4 架构与技术分析
    JavaScript实用的一些技巧
    asp.net开发常用技巧收集
    Ajax+PHP+jQuery图片截图上传
    如何利用WINPE制作恢复光盘/恢复分区
    C/C++跨平台计时,精确到毫秒级别
    SetLocalInfo修改系统时间,立即生效
  • 原文地址:https://www.cnblogs.com/xiaohu2011/p/7628918.html
Copyright © 2011-2022 走看看