zoukankan      html  css  js  c++  java
  • hadoop

     http://naotu.baidu.com/file/f5406e860372ea7d1c7e670955fe9f63?qq-pf-to=pcqq.group脑图

     

    1、一个模仿Google大数据技术的开源实现。

    2、hadoop:开源的 、分布式的、分布式计算平台

    Hadoop的组成:两个核心组成(1)HDFS:分布式文件系统,存储海量的数据(2)MapReduce:并行处理框架,实现任务分解和调度。

    3、hadoop1.x的核心是hdfs + mapreduce构架 hadoop2.x在hadoop1.x的基础进行了大幅度改变

    1.1、HDFS的变化 - 增强了NameNode的水平扩展及可用性 

    主要体现在增强了NameNode的水平扩展及可用性,可以同时部署多个NameNode,这些NameNodes之间是相互独立,也就是说他们不需要相互协调,DataNode同时在所有NameNodes注册,做为他们共有的存储节点,并向定时向所有的这些NameNodes发送心跳块使用情况的报告,并处理所有NameNodes向其发送的指令。

    架构如下:

     

    存储块池(Block Pool)

    一个存储块池是由一组存储块组成,它属于一个单独的Namespace(Namenode),集群中所有存储块池的存储块都是存放在Datanodes中的。每个存储块池与其它的存储块池都是独立管理的,因而其在为新的块生成Block IDs时,就不需要与其它Namespace(Namenode)中的存储块池进行协作,即使一个Namespace(Namenode)挂掉了,也不会使得Datanodes中的块被访问不到,因为其它Namespace(Namenode)中的存储块池也存放了Datanodes中所有存储块的信息。

    一个命名空间(Namespace)和它的块池一起被称为命名空间向量。它是一个自包含的管理单元。当一个Namenode/namespace被删除,存储于Datanodes中的相应的存储块池也会被删除掉,在集群的更新过程中,每个命名空间向量都是以一个整体进行升级的。

  • 相关阅读:
    列表、元组、字典等相关命令
    字符串相关命令
    Python简介
    二进制的趣事
    Shell脚本基础
    Linux基本服务
    一次性计划任务at与周期性计划任务crontab
    Linux权限管理
    python-文件操作
    python-初识python
  • 原文地址:https://www.cnblogs.com/Hei-po/p/6915577.html
Copyright © 2011-2022 走看看