zoukankan      html  css  js  c++  java
  • Hadoop 基础知识

    Hadoop 数据是存储在HDFS, Mapreduce 是一种计算框架,负责计算处理。

    HDFS上的数据存储默认是本地节点数据一份,同一机架不同节点一份,不同机架不同节点一份。默认是存储3份

    HDFS 存储元数据信息和存储位置信息,metadata。他们之间是通过文件名进行关联的。

    DataNode 节点存储FsImage, editLog;NameNode 存储的是block storage

    用户的请求都经过NameNode,因为它知道文件的存储位置

    HDFS 小文件处理:

      小文件的处理是在数据写入HDFS之前做一个处理。

      小文件如果合并成大文件,就看不到小文件里面的内容了。只能到合并后的大文件查找。

      小文件合并成大文件的场景:日志系统需要按月或者按年查询,就可以将每天的文件按月汇总或者按年汇总。

      实现方式:可以用SequenceFile 或者MapFile

      SequenceFile:使用filename作为key,并且file contents作为value

      MapFile:MapFile是排序后的SequenceFile

      

  • 相关阅读:
    事务管理思考
    sleep、yield、wait的区别
    线程异常
    线程
    JAVA线程中断
    volatile synchronized在线程安全上的区别
    jms amqp activemq rabbitmq的区别
    servlet不是线程安全的
    雪花算法
    个人税收申报时候对于“全年一次性奖金“的处理
  • 原文地址:https://www.cnblogs.com/zhanggl/p/5042160.html
Copyright © 2011-2022 走看看