zoukankan      html  css  js  c++  java
  • 大数据hadoop入门hadoop简介

    一、hadoop是一个分布式系统基础架构。分布式解决海量数据的存储和分析计算。大部分框架都依赖于hadoop。

     三篇论文需要了解。

    二、hadoop的优势

    1、高可靠性:hadoop底层维护多个数据副本,所以即使hadoop某个计算元素或存储出现故障们都不会导致数据的丢失。

    2、高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。都是动态操作

    3、高效性:并行工作,加快任务处理速度。

    4、高容错性:自动将失败的任务重新分配。

    三、hadoop的组成

    hadoop 1.x和hadoop2.x的区别:

             

     2.x更加模块化。1.x耦合性更大。

    HDFS包括:

    1、namenode:存储文件的元数据,如文件名、文件目录、文件属性,以及每个文件的块列表和块所在的datanode。就相当于是那些数据的存储目录。

    2、datanode:,就相当于是实实在在的数据。

     3、辅助namenode工作。

     四、yarn架构

     

     

     

     五、mapreduce架构

    map并行处理输入的数据,负责分   reduce对map的结果进行汇总,负责合。

  • 相关阅读:
    pymsql及事务
    MySQL表的操作
    MySQL操作
    epoll、mysql概念及简单操作
    IO模型
    面向对象4
    面向对象3
    面向对象2
    练习——网络编程2
    练习——网络编程
  • 原文地址:https://www.cnblogs.com/zhaoxinhui/p/15412395.html
Copyright © 2011-2022 走看看