大数据：Hadoop（HDFS 的设计思路、设计目标、架构、副本机制、副本存放策略）

zoukankan html css js c++ java

大数据：Hadoop（HDFS 的设计思路、设计目标、架构、副本机制、副本存放策略）
原文：https://www.cnblogs.com/volcao/p/11444679.html

一、HDFS 的设计思路

　1）思路
- 切分数据，并进行多副本存储；
　2）如果文件只以多副本进行存储，而不进行切分，会有什么问题
- 缺点
1. 不管文件多大，都存储在一个节点上，在进行数据处理的时候很难进行并行处理，节点可能成为网络瓶颈，很难进行大数据的处理；
2. 存储负载很难均衡，每个节点的利用率很低；
二、HDFS 的设计目标
- Hadoop Distributed File System（HDFS）：源于Google 的 GFS 论文；
- 设计目标
1. 分布式存储：根据需要，水平横向增加节点；
2. 运行在普通廉价的硬件上
3. 易扩展、为用户提供性能不错的（如果廉价的硬件损坏，不会给用户带来严重损失）文件存储服务；
三、HDFS架构
- 一般一个 HDFS 的集群，由一个 NameNode（NN）和多个 DataNodes（DN）组成；一般 NameNode 和 DataNodes 部署在不同的节点上；
- NameNode：
- 管理文件系统的 namespace，以及客户端对文件的访问；
- 功能：
1. 负责客户端请求的响应；
2. 负责元数据（文件的名称、副本系数、Block存放的DataNode）的管理；
- DataNodes
- 操作bolck的；一般每个节点有一个 DataNodes（集群上有几个节点，就对应有几个DataNodes，也一个节点也可以运行多DataNodes，不过一般不采用，使用一对一），管理文件应该存储到哪个节点上；
- 功能：
1. 存储用户的文件对应的数据块（Block）；
2. 定期向NameNode发送本身及其所有的block信息，健康状况；
- Blocks 是根据blocksize进行切分的；（blocksize=128M，130M==>128M + 2M）
- namespaces：操作文件的；打开、关闭、重命名文件，或者重命名目录；
- 四、HDFS 的副本机制
- HDFS 支持多层级文件存储（文件夹里有其它文件夹），
- 对文件系统命名空间做的任何操作，都会被记录到 NameNode 中；
- 一个文件的所有 Block，除了最后一个Bolck，其它所有Block的大小都是一样的（与 Blocksize 相同）；
- 五、HDFS 的副本存放策略
- 一般默认存放 3 份副本：也是容错安全考虑
- 第一个副本默认存放在当前操作的节点上；
- 第二个副本存放在不同与当前节点所在机架的某一个节点上；
- 第三个副本存放在与第二个副本相同机架的不同节点上；
查看全文

相关阅读:
dos窗口运行java文件需要jar依赖
 java爬虫，爬取当当网数据
 java上传excel到后台解析入库
 springboot项目上传文件出现临时文件目录为空
 parse_url 解析url的函数
 PHP中计算两个时间相差的天数、小时数、分钟数、秒数
 编写函数取得上个月的最后一天
 原生SQL连接数据库
 linux查看磁盘剩余空间以及cpu使用情况
 laravel request 类进行form表单验证

原文地址：https://www.cnblogs.com/panpanwelcome/p/13405497.html

大数据：Hadoop（HDFS 的设计思路、设计目标、架构、副本机制、副本存放策略）

一、HDFS 的设计思路

1）思路

2）如果文件只以多副本进行存储，而不进行切分，会有什么问题

缺点

二、HDFS 的设计目标

设计目标

三、HDFS架构

NameNode：

功能：

DataNodes

功能：

四、HDFS 的副本机制

五、HDFS 的副本存放策略

　1）思路

　2）如果文件只以多副本进行存储，而不进行切分，会有什么问题