zoukankan      html  css  js  c++  java
  • hadoop

    基于谷歌的论文

    GFS  ----hdfs

    MAP-Reduce      

    做的实现    Hadoop      解决的问题  如何存储   及分析

    Bigtable     ---Hbase(列式数据库)     PB级别

    具体应用   网盘     基于 hdfs

    一、HDFS优点

         高容错性   1.数据自动保存多个副本 (随机存放)2.副本丢失后,自动恢复

         适合批处理

         适合大数据处理   1.GB,TB,PB   2.10K节点 3.百万规模以上的文件数据

    二、缺点

         不适合小文件   例如几M, 因为   先要寻址  占用时间较长

         不支持修改内容(因为一个文件有多个副本,文件大小变化,切分规则也会变化)

         支持append     (生产中一般不用)

        

    元数据信息--NameNode(文件的一些属性信息存在内存中)  占用150b左右

    数据存放在DataNode(至少三台)

    HDFS数据存储单元(block)文件被切分成固定的数据块默认64M

    默认每个block默认都有三个副本,block 大小不可更改,个数可以更改

    NameNode    只有一个是active

    接受客户端的读写服务

    元数据信息 包括

              1.文件的权限信息

              2.文件包含哪些BLOCK

              3.BLOCK 保存在哪个DataNode

    (元数据持久化叫)fsimage   持久化  包括1,2

    edits记录 包括操作日志

    SeconddaryNameNode (1.X,  2.x没做高可用的时候有)  主要工作合并fsimage和edits,减少NameNode启动时间

    SeconddaryNameNode  只能备份一部分NameNode信息

    触发合并    

    1在配置文件中配置,   默认3600秒

    2edits 达到64M

    启动DataNode时会自动想NameNode汇报block信息

    通过向NameNode发送心跳(3秒一次),如果10分钟没有收到,会copy其上的block到其他DN

     

     

                  

  • 相关阅读:
    hdfs校验和
    hdfs读写策略
    hdfs架构
    hdfs数据块
    元数据
    集群的创建
    jQuery_DOM操作
    jQuery_简介_选择器
    Ajax
    MySQL整理_2_数据库操作
  • 原文地址:https://www.cnblogs.com/jentary/p/9260959.html
Copyright © 2011-2022 走看看