zoukankan      html  css  js  c++  java
  • Hadoop知识储备

    Hadoop初学思维导图

    1,Hadoop
    ··· Hadoop:
        Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统,是Hadoop生态圈的分布式数据存储基石;MapReduce是计算组件,会被Spark取代。
    ··· Hadoop生态圈:
        Hadoop生态圈是一系列用来处理大数据的框架或组件,有Hadoop、Hive、Spark、HBase等。
     
    2,HDFS
    ··· 组成:
        HDFS采用主从结构,支持文件形式的数据;HDFS包括一个NameNode节点、若干个DataNode节点和一个Secondary NameNode节点,Hadoop2.2之后可以有多个NameNode节点。
    ··· NameNode:
        NameNode作为主服务器,用来管理文件系统命名空间和客户端对文件的访问操作;NameNode是所有HDFS元数据的管理者,用户的数据不会经过NameNode;NameNode执行文件系统的命名空间,如打开、关闭、重命名文件或目录等,也负责数据块到具体DataNode的映射。存储文件的元数据,以及每个文件的块列表和块所在的DataNode。
    ··· DataNode:
        DataNode管理存储的数据;从内部看,文件被分成若干个数据块,并保存在一组DataNode上;DataNode负责处理文件系统客户端的读写,并在NameNode的统一调度下进行数据库的创建、删除和复制工作。
    ··· Secondary NameNode:
        用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。冷备份。
     
    3,HDFS HA
    ··· 高可用HDFS,由于HDFS的NameNode存在单点故障,所以需要备份的NameNode。
    1,备份的NameNode与活动的NameNode通过日志文件edit实现同步,并且同时只能有一个NameNode是active状态,active可以读写edit,standby只能读edit。热备份。
    2,ZooKeeper 负责管理NameNode 的故障转移(状态切换)。每一个NameNode节点上都运行一个ZKFC进程(ZooKeeper的客户端),ZKFC负责向ZooKeeper 发送本机NameNode 的健康状况。
  • 相关阅读:
    IE下JS文件失效问题总结
    什么是RFC?
    CHROME对CSS的解析
    php_network_getaddresses: getaddrinfo failed
    Fedora10下配置Apache和虚拟主机
    Apache的Charset设置
    网页设计中的面包屑路径
    利用JS实现的根据经纬度计算地球上两点之间的距离
    【OpenCV学习】子矩阵操作
    【OpenCV学习】ROI区域
  • 原文地址:https://www.cnblogs.com/shendeng23/p/12381100.html
Copyright © 2011-2022 走看看