zoukankan      html  css  js  c++  java
  • HDFS简介

    HDFS概述

        简介:根据Google的GFS的开源实现,Hadoop分布式文件系统,是一个分布式文件存储系统。

    优点

       1,高容错性:数据自动保存为多个副本,副本丢失后自动恢复,(block元数据信息+心跳),多副本,提供容错机制,副本丢失或宕机自动恢复,默认存3份。

       2,适合批处理:移动数据而非移动计算,数据位置暴露给计算框架(Block偏移量)

       3,适合大数据处理:GB,TB甚至PB的级别的数据

                 HDFS的Block机制适合大数据,HDFS默认会将文件分割成Block,Block默认64M,将Block按键值对存储到HDFS上,并将键值对的映射存储到内存中。小文件太多,NameNode内存压力会大。

                百万规模以上的文件数量

                10K+节点

        4,可构建在廉价机器上:通过多副本提高可靠性,提供了容错和恢复机制

    缺点

          1 低延迟数据访问:比如毫秒级,低延迟与高吞吐率

        2 小文件存取:占用NameNode大量内存,寻道时间超过读取时间

       3 并发写入,文件随机修改:一个文件只能有一个写者,只支持append,如何使用Append实现数据的CRUD?追加+标记+删除更改

    版本

       HDFS1.0,HDFS1.0:SecondaryNameNode

       HDFS2.0,HDFS2.0:主备设计(active/standby)

    HDFS存储模型:Block

      1 文件线性切割成块(Block):偏移量offset(byte)

      2 Block分散存储在集群节点中

      3 单一文件Block大小一致,文件与文件可以不一致

      4 block可以设置副本数,副本分散在不同的节点中,副本数不要超过节点数

      5 文件上传可以设置Block大小和副本数

      6 已经上传的文件Block大小和副本数可以调整,大小不变

      7 只支持一次写入多次读取,同一时刻只有一个写入者

      8 可以Append追加数据

      

     

        

                
      

        

  • 相关阅读:
    获取微信接口各种信息
    servlet
    springmvc上传图片,发送邮件
    linuxmint卸载软件
    linuxmint更改权限
    screen 链接远程桌面
    eclipse添加桌面快捷方式
    window精选软件
    windows Server2012 IIS8.0配置安装完整教程
    SQL Server 2012 sa 用户登录 18456 错误
  • 原文地址:https://www.cnblogs.com/QuestionsZhang/p/10025601.html
Copyright © 2011-2022 走看看