zoukankan      html  css  js  c++  java
  • 【Hadoop】NameNode

    一、背景介绍

    当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(partition)并存储到多台单独的计算机上。管理网络中跨多台计算机存储的文件系统称为分布式文件系统(distributed filesystem)。该系统架构于网络之上,势必引入网络编程的复杂性,因此分布式文件系统比普通文件系统更为复杂。Hadoop有一个称为HDFS的分布式文件系统,在非正式或旧文档中也会简称DFS。HDFS是Hadoop的旗舰级文件系统。

    HDFS特点

    以流式数据访问来存储超大文件,运行于商用硬件集群上。
    为优化高数据量访问,以高时间延迟为代价。
    对于低延迟的访问,HBase是更好的选择。
    文件系统的元数据存储在内存,记录在edits,映射在fsimage文件中,通过secondaryNameNode提高NameNode可靠性。
    不支持多个写入者的操作,也不支持在文件的任意位置修改。


    二、NameNode

    整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。
    文件包括
    fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息
    edits:操作日志文件
    fstime:保存最近一次checkpoint的时间
    这些文件保存在磁盘的文件系统中

    元数据管理

    在内存中保存metedata,用于处理“读请求”。到有“写请求”到来时,namenode会首先写editlog到磁盘,即向edits文件中写日志,成功返回后,才会修改内存,并且向客户端返回。Hadoop会维护一个fsimage文件,也就是namenode中metedata的镜像,但是fsimage不会随时与namenode内存中的metedata保持一致,而是每隔一段时间通过合并edits文件来更新内容。SecondaryNameNode就是用来合并fsimage和edits文件来更新NameNode的metedata的。

    三、SecondaryNameNode

    实现意义
    HA的一个方案。但不支持热备。配置即可。默认在安装在NameNode节点上(不安全)。
    在检查点任务到来时,通知NameNode切换edits,然后从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,替换旧的fsimage.

    检查点checkpoint设置
    fs.checkpoint.period 指定两次checkpoint的最大时间间隔,默认3600秒。
    fs.checkpoint.size    规定edits文件的最大值,一旦超过这个值则强制checkpoint,不管是否到达最大时间间隔。默认大小是64M。








  • 相关阅读:
    转载:关于sql server数据库表的主键问题
    centos FTP服务器的架设和配置
    OceanBase,淘宝开源的千亿级别分布式数据库系统。支持读写事务的线上服务
    在Fedora/Redhat/CentOS中防火墙设置
    转:SQL2008调试
    1.4.2 使用ActionScript类
    自写ajax经验总结
    搜索引擎中文分词技术
    优化数据库的方法及SQL语句优化的原则
    因为数据库正在使用,所以无法获得对数据库的独占访问权还原或删除数据库的解决方法
  • 原文地址:https://www.cnblogs.com/zhengwenqiang/p/6804597.html
Copyright © 2011-2022 走看看