zoukankan      html  css  js  c++  java
  • hadoop 提高hdfs删文件效率----hadoop删除文件流程解析

    前言

    这段时间在用hdfs,由于要处理的文件比较多,要及时产出旧文件,但是发现hdfs的blocks数一直在上涨,经分析是hdfs写入的速度较快,而block回收较慢,所以分心了一下hadoop删文件的流程,并做了调优,希望对遇到此类问题的程序猿们有帮助。

    正文

      经分析与查看源码发现,hdfs删除文件的流程是这样的:

    (1)java程序中的DFSClient调用delete函数,删除文件

          (2)NameNode将文件从他的namespace中删除

    (3)NameNode通过心跳的方式,发命令给DataNode,告诉DataNode哪些block块该删除,然后DataNode才真正将文件删除。

    当然这里面还有很多详细的流程,这里暂时不解释了,通过查看源码发现,NameNode每次通过心跳发给DataNode的block块数是100, 现在调优有连个地方可以改

    (1)把心跳间隔改小一点,这个在配置文件hdfs-site.xml中的dfs.heartbeat.interval 。

    (2)让NameNode每次多发给DataNode一些block块,由于是看源码发现的所以就该源码了,后来发现其实可以在配置文件中陪吐舌头

    修改DFSConfigKeys类中的DFS_BLOCK_INVALIDATE_LIMIT_DEFAULT,重新编译hadoop,替换到集群中即可。

    更简单的方法就是修改配置文件  dfs.block.invalidate.limit



    参考 http://blog.csdn.net/baggioss/article/details/5674359




  • 相关阅读:
    pytorch 文本输入处理
    理解 on-policy 和 off-policy
    Monte Carlo与TD算法
    Monte Calro Tree Search (MCTS)
    强化学习概览
    linux 服务器 keras 深度学习环境搭建
    sed和awk学习整理
    linux shell编程进阶学习(转)
    gdb调试:
    MySQL C API 访问 MySQL 示例
  • 原文地址:https://www.cnblogs.com/smileallen/p/3391473.html
Copyright © 2011-2022 走看看