HDFS基本原理

zoukankan html css js c++ java

HDFS基本原理
1． NameNode概述

a、NameNode是HDFS的核心。

b、NameNode也称为Master。

c、NameNode仅存储HDFS的元数据：文件系统中所有文件的目录树，并跟踪整个集群中的文件。

d、NameNode不存储实际数据或数据集。数据本身实际存储在DataNodes中。

e、NameNode知道HDFS中任何给定文件的块列表及其位置。使用此信息NameNode知道如何从块中构建文件。

f、NameNode并不持久化存储每个文件中各个块所在的DataNode的位置信息，这些信息会在系统启动时从数据节点重建。

g、NameNode对于HDFS至关重要，当NameNode关闭时，HDFS / Hadoop集群无法访问。

h、NameNode是Hadoop集群中的单点故障。

i、NameNode所在机器通常会配置有大量内存（RAM）。

2． DataNode概述

a、DataNode负责将实际数据存储在HDFS中。

b、DataNode也称为Slave。

c、NameNode和DataNode会保持不断通信。

d、DataNode启动时，它将自己发布到NameNode并汇报自己负责持有的块列表。

e、当某个DataNode关闭时，它不会影响数据或群集的可用性。NameNode将安排由其他DataNode管理的块进行副本复制。

f、DataNode所在机器通常配置有大量的硬盘空间。因为实际数据存储在DataNode中。

g、DataNode会定期（dfs.heartbeat.interval配置项配置，默认是3秒）向NameNode发送心跳，如果NameNode长时间没有接受到DataNode发送的心跳， NameNode就会认为该DataNode失效。

h、block汇报时间间隔取参数dfs.blockreport.intervalMsec,参数未配置的话默认为6小时.

总结：

NN和DN之间的汇报机制
启动集群的时候首先启动namenode 然后启动datanode

datanode启动的时候需要进行两件事

去namenode进行注册汇报报告自己启动成功 --->我活了

去namenode汇报自己本机持有哪些数据块

集群启动之后正常工作期间还需要间隔指定的时间进行汇报

datanode每隔3秒进行心跳目的：报活

dfs.heartbeat.interval

datanode每间隔6小时汇报自己持有块信息

dfs.blockreport.intervalMsec

在启动的过程中 hdfs会进入所谓安全模式数据只可以读不可以写内部进行数据完整性校验
查看全文

相关阅读:
Open-Drain与Push-Pull【转】
1.Linux电源管理-休眠与唤醒【转】
MII、RMII、GMII接口的详细介绍【转】
MII与RMII接口的区别【转】
SPI总线协议及SPI时序图详解【转】
Suspend to RAM和Suspend to Idle分析，以及在HiKey上性能对比【转】
C实战：项目构建Make,Automake,CMake【转】
Linux 下的dd命令使用详解(摘录)【转】
PHP数组常用函数
 Linux收藏

原文地址：https://www.cnblogs.com/TiePiHeTao/p/2d0340a9d40b93bda154a4e01e67f67b.html

1． NameNode概述

2． DataNode概述

总结：