Hadoop基础之HDFS

zoukankan html css js c++ java

Hadoop基础之HDFS
HDFS

Hadoop基础之HDFS

什么是HDFS
- Hadoop Distributed File System
- hadoop的分布式文件系统
- 文件系统：
分布式存储
- 对于一个容量超大的文件进行存储，在一个单独的位置很难完成，所以要按照某种规则，对这个文件进行切块，把每个块分别存储在集群中的不同节点里，分散了海量文件的存储压力
文件系统的表现形式
- 本地文件系统，普通操作系统里的文件系统
- 非本地文件系统，在操作系统之外的文件系统
三个角色
- NameNode(NN)
- DataNode(DN)
- SeondaryNameNode(2NN)
优缺点
- 优势
- 劣势
HDFS的存储方式
- 一个超大文件，按照128M为一个block块进行拆分，最后不足128M的部分自成一个block块
- 块大小
- 原因：最优化寻址时间
工作机制
- NameNode
- HDFS开机启动NameNode过程
- DataName
- HDFS写数据原理
- HDFS读数据原理
HDFS的安全模式
- 安全模式是HDFS处于一种特殊状态，这种状态下只能读不能改，换句话说，只能进行对数据不进行改变的操作
- 原因
- 最小副本条件
- 系统离开安全模式的条件
- 安全模式的配制
- 安全模式的命令
HDFS脚本
- hadoop/hdfs
hdfs操作
- shell操作(通过命令直接操作文件系统)
JavaAPI(通过开发工具写代码与HDFS连接)
<!-- package hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.junit.jupiter.api.Test; import java.io.IOException; import java.net.URI; public class TestHdfsConnection { @Test public void connectionHdfs() throws Exception { Configuration configurations = new Configuration(); // 可以选择不写参数，然后再re目录下导入core-size.xml文件 // 如果没有core-size.xml的同时，Configuration也没有值，会走默认 // configurations.set("fs.default.name","hdfs://hadoop101:9000"); FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop101:9000"),configurations,"bduser"); System.out.println(fileSystem); fileSystem.copyFromLocalFile(new Path("file:///D:/Tencent/QQManagementDate/461585949/FileRecv/第2章_彻底解决分布式一致性问题.pptx"),new Path("/home/bduser")); fileSystem.close(); } }
- 注意
- 关于windows操作hdfs的权限问题
Hadoop集群间的复制
- scp：跨节点之间的数据复制
- rsync:跨节点之间的数据同步
- hdfs dfs -cp：在一个集群之间进行数据的复制
- distcp：跨集群之间的数据复制
小文件管理
- 容量小的文件，在hdfs中，不足128M都按照1289M计算
- 如果这样的文件过多的话，对hdfs来说就是灾难性的影响
- 解决方案
配额管理
- 可以设置hdfs里目录存储的上限(数量和容量)
- 使用方式
如有问题，请发送邮件至buxiaqingcheng@163.com或者buxiaqingcheng@dingtalk.com
查看全文

相关阅读:
hdu 1251(字典树)(3种方法)
HDU 2203(KMP算法)
九度oj 题目1335：闯迷宫
 poj3894 bfs+记录路径
 状压dp--P2704
状压dp--洛谷P2622
动态规划--牛客多校number
完全背包
 01背包--hdu
莫比乌斯反演模板--Gym 101982B

原文地址：https://www.cnblogs.com/zhenzhunaichabujiatang/p/13873575.html

Hadoop基础之HDFS

Hadoop基础之HDFS

什么是HDFS

分布式存储

文件系统的表现形式

三个角色

优缺点

HDFS的存储方式

工作机制

HDFS的安全模式

HDFS脚本

hdfs操作

JavaAPI(通过开发工具写代码与HDFS连接)

Hadoop集群间的复制

小文件管理

配额管理