错误原文分析
文件操作超租期,实际上就是data stream操作过程中文件被删掉了。一般是由于Mapred多个task操作同一个文件。一个task完毕后删掉文件导致。
这个错误跟dfs.datanode.max.transfer.threads參数到达上限有关。这个是datanode同一时候处理请求的任务上限,总默认值是 4096,该參数取值范围[1 to 8192]
hadoop docs hdfs-site.xml
dfs.datanode.max.transfer.threads 4096
Specifies the maximum number of threads to use for transferring data in and out of the DN.
解决方式
- 改动$HADOOP_HOME/etc/hadoop/hdfs-site.xml, 添加例如以下内容:
<property>
<name>dfs.datanode.max.transfer.threads</name>
<value>8192</value>
</property>
重新启动hadoop 集群datanode - 又一次执行MR任务,跟同事讨论过此问题,我们觉得可能是这个MR前置任务各种网络问题&异常导致数据丢失,终于导致 输入数据不完整
參考链接
http://blog.csdn.net/zhoujj303030/article/details/44422415
https://issues.apache.org/jira/browse/HDFS-4723
http://permalink.gmane.org/gmane.comp.jakarta.lucene.hadoop.user/53521