zoukankan      html  css  js  c++  java
  • Hadoop验证文件系统的健康

    不知道是断过电还是怎么了,今天HBase突然坏掉了,然后去查看Hadoop的Secondary namenode日志发现:

    org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Checkpoint not created. Name node is in safe mode.
    The reported blocks 3774 needs additional 409 blocks to reach the threshold 0.9990 of total blocks 4188. Safe mode will be turned off automatically.
            at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.rollEditLog(FSNamesystem.java:5066)
            at org.apache.hadoop.hdfs.server.namenode.NameNode.rollEditLog(NameNode.java:865)
            at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
            at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
            at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
            at java.lang.reflect.Method.invoke(Method.java:616)
            at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:557)
            at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1434)
            at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1430)
            at java.security.AccessController.doPrivileged(Native Method)
            at javax.security.auth.Subject.doAs(Subject.java:416)
            at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1127)
            at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1428)

            at org.apache.hadoop.ipc.Client.call(Client.java:1107)
            at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:226)
            at $Proxy4.rollEditLog(Unknown Source)
            at org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode.doCheckpoint(SecondaryNameNode.java:460)
            at org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode.doWork(SecondaryNameNode.java:333)
            at org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode.run(SecondaryNameNode.java:297)
            at java.lang.Thread.run(Thread.java:636)

    有一些文件块缺失了,应该是在入库的时候某个datanode发生了故障,这样的话我们没办法找回这些数据了,而且安全模式也退不出去,让我们检查一下系统的健康:

    bin/hadoop fsck /

    ********************************
      CORRUPT FILES:        413
      MISSING BLOCKS:       413
      MISSING SIZE:         1029442 B
      CORRUPT BLOCKS:       413
    ********************************

    我擦,居然坏掉了413个block,系统生病了,这时我们需要这样:

    bin/hadoop fsck / -move(把这些坏掉的文件放到/lost+found)

    或者bin/hadoop fsck / -delete(把这些坏掉的文件清除)

    这样你再试一下bin/hadoop fsck / 那么系统就健康了。下次重启dfs 或者重启hadoop等他退出安全模式就可以了。

    这里有一些更详细的说明:http://blog.163.com/jiayouweijiewj@126/blog/static/17123217720101186421222/

    另外,HBase如果也出现了找不到文件块的问题可以把如下文件删除:

    ROOT-
    dir



    2012-04-13 17:07
    rwxr-xr-x
    goldsoft
    supergroup
    .META.
    dir



    2012-04-13 17:07
    rwxr-xr-x
    goldsoft
    supergroup
    .logs
    dir



    2012-04-13 17:12
    rwxr-xr-x
    goldsoft
    supergroup
    .oldlogs
    dir



    2012-04-13 17:11
    rwxr-xr-x
    goldsoft
    supergroup

    这四个目录中除.oldlogs以外的删除,使用./hadoop fs -rmr /hbase/-ROOT-这样的命令,

    启动hbase,查看日志:

    2012-04-13 17:08:43,901 INFO org.apache.hadoop.hbase.master.HMaster: Master has completed initialization
    时,在${hbasehome}/bin下,执行./hbase org.jruby.Main add_table.rb /hbase目录/表名即可

    为了防止数据的丢失,我们在入库的时候,最好是在已经确认放库成功以后,再将源数据删除,这样,才能保证数据不会被丢失。

    参考:http://www.myexception.cn/open-source/419418.html

    关注分布式存储技术以及分布式计算方法
  • 相关阅读:
    windows环境配置多个tomcat
    navicat 12 破解
    Eclipse创建Maven报异常:Could not get the value for parameter encoding for plugin......
    tomcat设置日志打印到文件中
    修改mysql数据库的休眠时间
    spring的bean标签的常用属性
    redis 安装与下载(windows版本)
    mysql设置远程可访问
    WPF非轮询方式更新数据库变化SqlDependency(数据库修改前台自动更新)
    WPF实战案例-在线程内同步集合数据到UI线程
  • 原文地址:https://www.cnblogs.com/colorfulkoala/p/2771618.html
Copyright © 2011-2022 走看看