hadoop 提高hdfs删文件效率----hadoop删除文件流程解析 - 走看看

zoukankan html css js c++ java

hadoop 提高hdfs删文件效率----hadoop删除文件流程解析

前言

这段时间在用hdfs，由于要处理的文件比较多，要及时产出旧文件，但是发现hdfs的blocks数一直在上涨，经分析是hdfs写入的速度较快，而block回收较慢，所以分心了一下hadoop删文件的流程，并做了调优，希望对遇到此类问题的程序猿们有帮助。

正文

经分析与查看源码发现，hdfs删除文件的流程是这样的：

（1）java程序中的DFSClient调用delete函数，删除文件

（2）NameNode将文件从他的namespace中删除

（3）NameNode通过心跳的方式，发命令给DataNode，告诉DataNode哪些block块该删除，然后DataNode才真正将文件删除。

当然这里面还有很多详细的流程，这里暂时不解释了，通过查看源码发现，NameNode每次通过心跳发给DataNode的block块数是100, 现在调优有连个地方可以改

（1）把心跳间隔改小一点，这个在配置文件hdfs-site.xml中的dfs.heartbeat.interval 。

（2）让NameNode每次多发给DataNode一些block块，由于是看源码发现的所以就该源码了，后来发现其实可以在配置文件中陪

修改DFSConfigKeys类中的DFS_BLOCK_INVALIDATE_LIMIT_DEFAULT，重新编译hadoop，替换到集群中即可。

更简单的方法就是修改配置文件 dfs.block.invalidate.limit

参考 http://blog.csdn.net/baggioss/article/details/5674359

查看全文

相关阅读:
ZooKeeper 授权访问
 jQuery代码优化：事件委托篇
 设计一个学生作业完成情况的管理程序
 UVa 10192 Vacation（LCS水题）
BBS快照源代码代写
 ftp服务器系统编程编码程序下载代写代开发
 文件夹病毒专杀工具
 C#生成软件注册码
 《恐怖丛林生存》肉搏攻略，解开星星系统之谜
 《恐怖丛林生存》各种bug 各种解密

原文地址：https://www.cnblogs.com/smileallen/p/3391473.html

Copyright © 2011-2022 走看看