错误一:
2010-11-09 16:59:07,307 INFO org.apache.hadoop.ipc.Server: Error register getProtocolVersion
java.lang.IllegalArgumentException
可能的解决方法是:
可能是mapred-site.xml文件的mapred.job.tracker节点配置成IP了
原来的格式:
<property>
</property>
应该改成
<property>
</property>
问题解决!
问题二:
2012-03-15 16:57:01,391 ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: java.net.ConnectException: Connection refused拒绝连接
secondary namenoded 配置很容易被忽视,如果jps检查都正常,大家通常不会太关心,除非namenode发生问题的
时候,才会想起还有个secondary namenode,它的配置共两步:
- 集群配置文件conf/master中添加secondarynamenode的机器名
- 修改/添加 hdfs-site.xml中如下属性:
<name>dfs.http.address</name>
<value>{your_namenode_ip}:50070</value>
<description>
The address and the base port where the dfs namenode web ui will listen on.
If the port is 0 then the server will start on a free port.
</description>
</property>
三、如果错误是java.net.NoRouteToHostException:
查看下防火墙有没有关上
四、如果无法连接datanode,看看tmp文件有没有全部删除
五、error:All datanodes
类似这样的错误,常常会在并行的put操作比较多,比如60-80个,每个put的数据量约100G的时候,产生类似的错误,错误出现以后,比较好一点的情况是DFSClient端会报出一些列的错误log,如:
error Recovery for block
Bad response
产生这样的报错后,put操作仍然能够进行,并最终数据上传是完整的,只是效率会收到影响。
但是如果碰到不好的情况,就会报出:
All datanodes
这样的错误,这样就会导致put操作中断,导致数据上传不完整。
根据log查看hadoop的代码发现,出错的地方在 DFSClient 的 processDatanodeError()方法中,进入这个方法就表示DFSClient的操作发生了错误。而进入这个报错的代码逻辑是因为 DFSClient中发现errorIndex > 0,继续跟踪,发现修改了errorIndex变量的方法调用中,只有 createBlockOutputStream,DFSOutputStream的构造方法,以及ResponseProcessor.run()方法 中对该变量进行了修改,而由于DFSOutputStream的构造方法对该变量进行的修改是在append的时 候,ResponseProcessor.run()会直接抛出另外的异常,因此调用定位到createBlockOutputStream() 方法中,最后发现修改errorIndex的原因是由于 某个datanode的link跟dfsclient短发生了失败,根据log中发现失败是由于socket链接超时导致,这说明,put发生异常的时 候,是DFSClient 链接从namenode得来的datanode列表中的datanode时,由于该datanode当时的负载非常的高,导致当时无法服务造成。
六、运行一段时间后hadoop不能stop-all.sh的问题,显示报错
no
问题的原因是hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下,linux 默认会每隔一段时间(一般是一个月或者7天左右)去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和 hadoop-hadoop-namenode.pid两个文件后,namenode自然就找不到datanode上的这两个进程了。
在配置文件hadoop_env.sh中配置export HADOOP_PID_DIR可以解决这个问题
错误七:没有到主机的路由。。。
2012-07-11 19:40:02,158 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: jobtracker/192.168.0.198:8021. Already tried 0 time(s).
2012-07-11 19:40:03,161 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: jobtracker/192.168.0.198:8021. Already tried 1 time(s).
2012-07-11 19:40:04,164 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: jobtracker/192.168.0.198:8021. Already tried 2 time(s).
2012-07-11 19:40:05,166 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: jobtracker/192.168.0.198:8021. Already tried 3 time(s).
2012-07-11 19:40:06,167 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: jobtracker/192.168.0.198:8021. Already tried 4 time(s).
2012-07-11 19:40:07,171 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: jobtracker/192.168.0.198:8021. Already tried 5 time(s).
2012-07-11 19:40:08,174 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: jobtracker/192.168.0.198:8021. Already tried 6 time(s).
2012-07-11 19:40:09,180 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: jobtracker/192.168.0.198:8021. Already tried 7 time(s).
2012-07-11 19:40:10,185 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: jobtracker/192.168.0.198:8021. Already tried 8 time(s).
2012-07-11 19:40:11,189 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: jobtracker/192.168.0.198:8021. Already tried 9 time(s).
2012-07-11 19:40:11,192 INFO org.apache.hadoop.ipc.RPC: Server at jobtracker/192.168.0.198:8021 not available yet, Zzzzz...
我的解决方法是把/etc/hosts文件的第一行127.0.0.1注释掉,然后在后面加上主机的ip地址和名称
8、有时,当你申请到一个HOD集群后马上尝试上传文件到HDFS时,DFSClient会警告NotReplicatedYetExceptio
org.apache.hadoop.ipc.RemoteException: java.io.IOException File /root/testdir/hadoop-default.xml could only be replicated to 0 nodes, instead of 1
at org.apache.hadoop.dfs.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1123)
at org.apache.hadoop.dfs.NameNode.addBlock(NameNode.java:330)
at sun.reflect.NativeMethodAccessorImpl
at sun.reflect.NativeMethodAccessorImpl
at sun.reflect.DelegatingMethodAccessor
……
不幸的是我也遇到了这个报错,google了很久才找到一个解决方案:当你向一个DataNodes正在和NameNode联络的集群上传文件的时候,这种现象就会发生。在上传新文件到HDFS之前多等待一段时间就可以解决这个问题,因为这使得足够多的DataNode启动并且联络上了NameNode。
9、Error: Java heap space
mapred-site.xml中设置
<property>
</property>
调整这个数字。
10、
解决方法
bin/hadoop dfsadmin -safemode leave