Hdfs的写入机制

zoukankan html css js c++ java

Hdfs的写入机制
首先我要将一个200M文件存到HDFS集群中。
1. 客户端通过RPC（远程服务）访问NameNode，请求写入一个文件。
2. NameNode检查客户端是否有权限写入，如果有权限返回一个响应。如果没有客户端就会抛出一个异常。
3. 客户端会将文件按BlckSize大小（默认128M）将文件切分成一个一个Block块，然后请求写入第一个Block块。
4. NameNode会根据它的负载均衡机制，给客户端返回满足其副本数量（默认是3）的列表（BlockId：主机，端口号，存放的目录）。
5. 客户端根据返回的列表，开始建立管道（pipeline）。客户端->第一个节点->第二个节点->第三个节点。
6. 开始传输数据，Block按照Packet一次传输，当一个Packet成功传输到第一个DataNode上以后，第一个DodaNode就把这个Packet开始进行复制，并将这个Packet通过管道传输到下一个DataNode上，下一个DataNode接收到Packet后，继续进行复制，再传输到下一个DataNode上。
7. 当一个Block块成功传输完以后，从最后一个DataNode开始，依次从管道返回ACK队列，到客户端。
8. 客户端会在自己内部维护着一个ACK队列，跟返回来的ACK队列进行匹配，只要有一台DataNode写成功，就认为这次写操作是完成的。
9. 开始进行下一个Block块的写入。重复3-8。
如果在传输的时候，有的DataNode宕机了，这个DataNode就会从这个管道中退出。剩下的DataNode继续传输。然后，等传输完成以后，NameNode会再分发出一个节点，去写成功的DataNode上复制出一份Block块，写到新的DataNode上。
查看全文

相关阅读:
(Ubuntu)Tensorflow object detection API——（2）运行已经训练好的模型
 tensorflow object detection API 验证时报No module named 'object_detection'
(Ubuntu)Tensorflow object detection API——（1）环境搭建
 将图片数据保存为单个tfrecord文件
 线性系统和非线性系统
 一次 Druid 连接池泄露引发的血案！
46 道阿里巴巴 Java 面试题，你会几道？
想成为顶尖 Java 程序员？先过了下面这些问题！
干掉PostMan！IDEA这款插件太实用了…
网络常见的 9 大命令，非常实用！

原文地址：https://www.cnblogs.com/shqnl/p/11429196.html