zoukankan      html  css  js  c++  java
  • HDFS简介

    HDFS概述

        简介:根据Google的GFS的开源实现,Hadoop分布式文件系统,是一个分布式文件存储系统。

    优点

       1,高容错性:数据自动保存为多个副本,副本丢失后自动恢复,(block元数据信息+心跳),多副本,提供容错机制,副本丢失或宕机自动恢复,默认存3份。

       2,适合批处理:移动数据而非移动计算,数据位置暴露给计算框架(Block偏移量)

       3,适合大数据处理:GB,TB甚至PB的级别的数据

                 HDFS的Block机制适合大数据,HDFS默认会将文件分割成Block,Block默认64M,将Block按键值对存储到HDFS上,并将键值对的映射存储到内存中。小文件太多,NameNode内存压力会大。

                百万规模以上的文件数量

                10K+节点

        4,可构建在廉价机器上:通过多副本提高可靠性,提供了容错和恢复机制

    缺点

          1 低延迟数据访问:比如毫秒级,低延迟与高吞吐率

        2 小文件存取:占用NameNode大量内存,寻道时间超过读取时间

       3 并发写入,文件随机修改:一个文件只能有一个写者,只支持append,如何使用Append实现数据的CRUD?追加+标记+删除更改

    版本

       HDFS1.0,HDFS1.0:SecondaryNameNode

       HDFS2.0,HDFS2.0:主备设计(active/standby)

    HDFS存储模型:Block

      1 文件线性切割成块(Block):偏移量offset(byte)

      2 Block分散存储在集群节点中

      3 单一文件Block大小一致,文件与文件可以不一致

      4 block可以设置副本数,副本分散在不同的节点中,副本数不要超过节点数

      5 文件上传可以设置Block大小和副本数

      6 已经上传的文件Block大小和副本数可以调整,大小不变

      7 只支持一次写入多次读取,同一时刻只有一个写入者

      8 可以Append追加数据

      

     

        

                
      

        

  • 相关阅读:
    flink-sql-client使用kafka表格
    flink 使用sql实现kafka生产者和消费者
    利用scan迁移部分单点redis数据到RedisCluster
    flink按事件时间排序
    Linux下面 多线程死锁问题的调试
    大数据开发工具漫谈
    如何撰写一个分布式计算平台的作业调度器?
    (随用随总结)Linux下面的特殊权限&不同的文件类型
    【javascript小案例】从0开始实现一个俄罗斯方块
    mysqldumpslow简单使用方法-mysqldumpslow详细用法
  • 原文地址:https://www.cnblogs.com/QuestionsZhang/p/10025601.html
Copyright © 2011-2022 走看看