zoukankan      html  css  js  c++  java
  • hadoop 知识点总结

    关于元数据的checkpoint

       每隔一段时间,会由secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地,并加载到内存进行merge(这个过程称为checkpoint)

       namenode和secondary namenode的工作目录存储结构完全相同,所以,当namenode故障退出需要重新恢复时,可以从secondary namenode的工作目录中将fsimage拷贝到namenode的工作目录,以恢复namenode的元数据

      

    hdfs在生产应用中主要是客户端的开发,其核心步骤是从hdfs提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件

    Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架

    集群运行模式

      mapredue 程序   ====提交====》 yarn集群resourcemanager,分发到很多节点上并发执行 

      

    v  mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;

    v  shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存);

    具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数据按key进行了分区和排序

  • 相关阅读:
    项目Beta冲刺(团队4/7)
    项目Beta冲刺(团队3/7)
    修!咻咻!团队Beta作业博客汇总
    修!咻咻!团队作业博客汇总
    用户使用调查报告
    Beta冲刺总结
    修咻咻对追光的人、云打印团队的Beta产品测试报告
    Beta冲刺(9/7)——2019.5.31
    Beta冲刺(8/7)——2019.5.30
    Beta冲刺(7/7)——2019.5.29
  • 原文地址:https://www.cnblogs.com/toov5/p/7381577.html
Copyright © 2011-2022 走看看