DataNode工作原理(四)

zoukankan html css js c++ java

DataNode工作原理(四)

DataNode的作用:提供真实文件数据的存储服务.以文件块进行存储。

文件块（block）：最基本的存储单位。对文件内容而言，一个文件的长度大小是size，那么从文件的0偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个block。HDFS默认的block大小是128M，以一个256MB文件，共有258/128=2个block.不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小。并不占用整个数据块存储空间。

接下来对DataNode的存储方式进行验证。

1：切换到Data的dfs目录，然后切换到data/current/目录。。。一直往下找到 finalized目录。文件块就在该目录下。

2：执行 hadoop fs -rm -r hdfs://weekend110:9000/*命令清空上传的文件。发现 finalized目录下的信息为零。

3.新建一个会话,上传一个文件: hadoop fs -put apache-hive-0.14.0-bin.tar.gz /

4.再次查看 finalized目录，发现一个模块有 80288778B约等于76.5和上传的一样大

5.通过访问http://192.168.17.99:50070/explorer.html#/可以更直观的看出这是一个压缩文件76.57M占用一个Block。已经所做的权限组和权限及所有者。

6.再上传一个文件发现，第一个Block的Id为blk_1073741843。第二个Block的Id为blk_1073741844，具有连续性。有一个超过128M的文件压缩包，被分散成多个Block时，是不是也具有连续性。对于一个不完整的文件压缩包一般解压会失败。我们不能单独的cat出某个Block里面的内容，因此我得到他的所有的连续的Block合在一起会不会就能解压成功?

答案是肯定的。cat A >> B 最后等于上传文件的大小。因此hdfs中对文件的切割和合并和一般处理文件的流模式一样。

查看全文

相关阅读:
Hibernate实现limit查询报错：unexpected token: limit near line 1, column 33 [from pojo.Product p order by id limit ?,? ]
slot_filling
Perplexity(困惑度)
图网络
 textrank
copynet
PGN
beam-search的改进
 项目实战：如何构建知识图谱
 实体关系三元组抽取

原文地址：https://www.cnblogs.com/SamllBaby/p/5695472.html