zoukankan      html  css  js  c++  java
  • 大数据 week2 Hadoop and HDFS

    https://www.cse.unsw.edu.au/~cs9313/20T2/slides/L2.pdf

    https://drive.google.com/drive/folders/13_vsxSIEU9TDg1TCjYEwOidh0x3dU6es

    Hadoop:

      1.•Stores big data in a distributed manner   分布式存储大数据

      2.•Processes big data parallelly        并行处理数据

      3.Builds on large clusters of commodity hardware         建立在大型商业硬件集群上

      

      其功能通过以下实现

        1.Redundant, Fault-tolerant data storage (HDFS)

        2.•Parallel computation framework (MapReduce)

        3.Job coordination/scheduling (YARN)

    HDFS :Hadoop Distributed File Systems

      1. 支持分布式存储,分布式运行,通过增加机器数目增加内存(• horizontal scalability)

      2. 数据被存储在多个节点(重复存储)

      3.允许多人访问数据

      4.结构有三类 NameNode ,Secondary NameNode, DataNode

      

      

      NameNode: 

      1.主节点,维护管理从节点(DataNodes)

      2.记录metadata (元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。)

      3.定期检查datanodes的status(DataNodes每几秒会发送信息至NameNode)

      4.处理失败Nodes

      

       DataNodes:

      1.存储数据

      2.响应读写请求

      3.reports the health to NameNode(heartbeat)

      

      Secondary Node:

      1.存储 fsimage editlogs的备份

      2.周期性 apply editlogs to fsimage and refresh the editlogs

      3.防止NameNode坏掉

      

      

       

      Blocks:

      1. 存入HDFS中的文件都会以blocks的形式存在,小于等于128M

      

       

  • 相关阅读:
    .net注册iis
    hdu 1081To The Max
    hdu 1312Red and Black
    hdu 1016Prime Ring Problem
    hdu 1159Common Subsequence
    hdu 1372Knight Moves
    hdu 1686Oulipo
    hdu 1241Oil Deposits
    hdu 1171Big Event in HDU
    hdu 4006The kth great number
  • 原文地址:https://www.cnblogs.com/ChevisZhang/p/13131206.html
Copyright © 2011-2022 走看看