zoukankan      html  css  js  c++  java
  • Java+大数据开发——HDFS详解

    1. HDFS 介绍

     • 什么是HDFS

      首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件。

        其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色;

     • 设计思想

        分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;

     • 在大数据系统中作用:

      为各类分布式运算框架(如:mapreducesparktez……)提供数据存储服务。

     • Hdfs整体架构如下

    2. HDFS的特性

    (1)HDFS中的文件在物理上是分块存储(block。块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M

    (2)HDFS文件系统会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data

    (3)目录结构及文件分块信息(元数据)的管理由namenode节点承担,namenodeHDFS集群主节点,负责维护整个hdfs文件系统的目录树,以及每一个路径(文件)所对应的block块信息。

    (4)文件的各个block的存储管理由datanode节点承担,datanodeHDFS集群从节点,每一个block都可以在多个datanode上存储多个副本(副本数量也可以通过参数设置dfs.replication)。

    (5)HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改。

    3. HDFS 的shell(命令行客户端)操作

    3.1HDFS命令行客户端使用

    HDFS提供shell命令行客户端,使用命令语法为:hadoop fs <args>,它支持支持多种文件系统的访问,主要包括LocalHDFS两种,配置文件中的fs.defaultFS的值决定了默认访问的文件系统。其中命令中的“fs”表示FileSystem Shell。

    “<args>”“fs”的子命令,包括:

    创建目录:mkdir

    列表文件:ls

    查看文件:cat

    转移文件:put、get、mv、cp

    删除文件:rm、rmr

    管理命令:test、du、expunge

    3.2常用命令参数介绍

    -help             

    功能:输出这个命令参数手册

    -ls                  

    功能:显示目录信息

    示例: hadoop fs -ls hdfs://hadoop-server01:9000/

    备注:这些参数中,所有的hdfs路径都可以简写

    -->hadoop fs -ls /   等同于上一条命令的效果

    -mkdir              

    功能:在hdfs上创建目录

    示例:hadoop fs  -mkdir  -p  /aaa/bbb/cc/dd

    --appendToFile  

    功能:追加一个文件到已经存在的文件末尾

    示例:hadoop  fs  -appendToFile  ./hello.txt  hdfs://hadoop-server01:9000/hello.txt

    可以简写为:Hadoop  fs  -appendToFile  ./hello.txt  /hello.txt

    -cat  

    功能:显示文件内容  

    示例:hadoop fs -cat  /hello.txt

    -cp              

    功能:从hdfs的一个路径拷贝hdfs的另一个路径

    示例: hadoop  fs  -cp  /aaa/jdk.tar.gz  /bbb/jdk.tar.gz.2

    -mv                     

    功能:在hdfs目录中移动文件

    示例: hadoop  fs  -mv  /aaa/jdk.tar.gz  /

    -get              

    功能:等同于copyToLocal,就是从hdfs下载文件到本地

    示例:hadoop fs -get  /aaa/jdk.tar.gz

    -put                

    功能:等同于copyFromLocal

    示例:hadoop  fs  -put  /aaa/jdk.tar.gz  /bbb/jdk.tar.gz.2

    -rm                

    功能:删除文件或文件夹

    示例:hadoop fs -rm -r /aaa/bbb/

    4. HDFS 的工作机制

    4.1概述

              1、HDFS集群分为两大角色:NameNodeDataNode

              2、NameNode负责管理整个文件系统的元数据;

              3、DataNode 负责管理用户的文件数据块;

         4、文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上;

         5、每一个文件块可以有多个副本,并存放在不同的datanode上;

              6、Datanode会定期向Namenode汇报自身所保存的文件block信息,而namenode则会负责保持文件的副本数量;

              7、HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过向namenode申请来进行;

    4.2HDFS写数据流程

    客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件blockdatanode,然后,客户端按顺序将文件逐个block传递给相应datanode,并由接收到blockdatanode负责向其他datanode复制block的副本。

    4.3HDFS读数据流程

    客户端将要读取的文件路径发送给namenodenamenode获取文件的元信息(主要是block的存放位置信息)返回给客户端,客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件。

    5.NAMENODE 工作机制

    5.1NAMENODE 职责

    NAMENODE职责:负责客户端请求的响应以及元数据的管理(查询,修改)。

    5.2元数据管理

    namenode对数据的管理采用了三种存储形式:

    1、内存元数据(NameSystem)

    2、磁盘元数据镜像文件

    3、数据操作日志文件(可通过日志运算出元数据)

    5.3元数据储存机制

    A、内存中有一份完整的元数据(内存meta data)

    B、磁盘有一个“准完整”的元数据镜像(fsimage)文件(namenode的工作目录中)

    C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志(edits文件)

    5.4元数据手动查看

    可以通过hdfs的一个工具来查看edits中的信息

    bin/hdfs oev -i edits -o edits.xml

    bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml

    5.5元数据的checkpoint

    每隔一段时间,会由secondary namenodenamenode上积累的所有edits和一个最新的fsimage下载到本地,并加载到内存进行merge(这个过程称为checkpoint

    6. DATANODE 的工作机制

    6.1DATANODE 工作职责

    1、存储管理用户的文件块数据

    2、定期向namenode汇报自身所持有的block信息(通过心跳信息上报)

    6.2观察验证DATANODE 功能

    上传一个文件,观察文件的block具体的物理存放情况:

    在每一台datanode机器上的这个目录中能找到文件的切块:

    /home/hadoop/app/hadoop-2.6.5/tmp/dfs/data/current/BP-193442119-192.168.2.120-1432457733977/current/finalized

    作者:杰瑞教育
    出处:http://www.cnblogs.com/jerehedu/ 
    版权声明:本文版权归杰瑞教育技有限公司和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
    技术咨询:JRedu技术交流
  • 相关阅读:
    从编程到入侵
    编程实现盗2005 Beta2版QQ
    Justin Frankel:Winamp的反斗奇星
    用安静的热情征服联合国
    我和试用期员工之间的故事
    Sogou输入法之父给我们的启示
    《ATL开发指南》的一个值得商榷的地方
    厦门PX项目迁址:意义有限的进步
    探析项目主导型的IT业的人员需求变化及其应对办法
    今天,影响了一位试用期员工的去留
  • 原文地址:https://www.cnblogs.com/jerehedu/p/7550565.html
Copyright © 2011-2022 走看看