zoukankan      html  css  js  c++  java
  • HDFS简介

    HDFS概述

        简介:根据Google的GFS的开源实现,Hadoop分布式文件系统,是一个分布式文件存储系统。

    优点

       1,高容错性:数据自动保存为多个副本,副本丢失后自动恢复,(block元数据信息+心跳),多副本,提供容错机制,副本丢失或宕机自动恢复,默认存3份。

       2,适合批处理:移动数据而非移动计算,数据位置暴露给计算框架(Block偏移量)

       3,适合大数据处理:GB,TB甚至PB的级别的数据

                 HDFS的Block机制适合大数据,HDFS默认会将文件分割成Block,Block默认64M,将Block按键值对存储到HDFS上,并将键值对的映射存储到内存中。小文件太多,NameNode内存压力会大。

                百万规模以上的文件数量

                10K+节点

        4,可构建在廉价机器上:通过多副本提高可靠性,提供了容错和恢复机制

    缺点

          1 低延迟数据访问:比如毫秒级,低延迟与高吞吐率

        2 小文件存取:占用NameNode大量内存,寻道时间超过读取时间

       3 并发写入,文件随机修改:一个文件只能有一个写者,只支持append,如何使用Append实现数据的CRUD?追加+标记+删除更改

    版本

       HDFS1.0,HDFS1.0:SecondaryNameNode

       HDFS2.0,HDFS2.0:主备设计(active/standby)

    HDFS存储模型:Block

      1 文件线性切割成块(Block):偏移量offset(byte)

      2 Block分散存储在集群节点中

      3 单一文件Block大小一致,文件与文件可以不一致

      4 block可以设置副本数,副本分散在不同的节点中,副本数不要超过节点数

      5 文件上传可以设置Block大小和副本数

      6 已经上传的文件Block大小和副本数可以调整,大小不变

      7 只支持一次写入多次读取,同一时刻只有一个写入者

      8 可以Append追加数据

      

     

        

                
      

        

  • 相关阅读:
    Bash Shell 快捷键
    vector-swap
    vector-swap
    vector-size
    Android网络篇
    应用 Valgrind 发现 Linux 程序的内存问题
    树莓派初学者?先做做这十个项目吧
    树莓派 (为学习计算机编程教育设计的一种微型电脑)
    微软windows10 IOT支持PI3之后,树莓派3更是将获得Android官方原生支持
    Linux基金会宣布JS Foundation基金会成立 前身为jQuery团队
  • 原文地址:https://www.cnblogs.com/QuestionsZhang/p/10025601.html
Copyright © 2011-2022 走看看