zoukankan      html  css  js  c++  java
  • 大数据 week2 Hadoop and HDFS

    https://www.cse.unsw.edu.au/~cs9313/20T2/slides/L2.pdf

    https://drive.google.com/drive/folders/13_vsxSIEU9TDg1TCjYEwOidh0x3dU6es

    第二节课花了40分钟讲,如果dataNode坏掉之后,block丢失的概率,以及每个Block的数量设置为3的科学之处;剩余10分钟讲了HDFS文件的create write read.

    1. Block的存储

      1)每个Block设置为3个,分别存放于不同的DataNode中,第一份存放于local DataNode,其他两份存放于不同于第一份的rack中的两个dataNode 这样防止出现电力事故造成的数据丢失。

       2)为什么每个block数量要设置为3

      设有4000个nodes,三百万个blocks,每个Node便有750个blocks,每日丢失一个node

      这些计算好无聊啊 - - 

      

      

       

       

       

       

    HDFS独写:

    1. write

      1)先向分DFS申请空间,然后DFS向NameNode发出申请

      2)Client经过FSDataOutputStream 开始在Pipeline of datanodes里面写三份

      3)  写完之后 经过FSDataOutputStream关闭,并告诉NameNode 结束

      

      1) 对于一份文件同时只能一个人写

      2)blocks可以同时进行写

      

      

     read:

  • 相关阅读:
    Binary Tree Paths
    Implement Stack using Queues
    Path Sum II
    Path Sum
    Plus One
    Add Digits
    Missing Number
    H-Index II
    H-Index
    Ugly Number II
  • 原文地址:https://www.cnblogs.com/ChevisZhang/p/13132049.html
Copyright © 2011-2022 走看看