zoukankan      html  css  js  c++  java
  • 01_MapReduce流程总结

    1. MapReduce整体流程

    1、 每个map,reduce都作为1个独立进程process启动(多进程并发方式,spark是多线程并发)

    2、 由于进程空间独享,因此方便控制每个map, reduce任务的资源和调配,但进程的启动慢

    3、 多线程运行的更快,因此spark有更高的时效性,缺点在于多线程带来的稳定性低(相比map, reduce)

    2. Map: split->RR->map->partition tag->spill(sort)->merge

    Inputformat如何保证Record记录完整性?

    Inputformat包含Data Split、Record Reader两部分功能。 Inputformat根据block进行Split, 当有一个记录横跨在两个block上时,会将这条记录归属于前一个split (该split的大小就大于1个block大小),从而保证记录不会被切散

    3. Reduce:  copy- sort(merge) - reduce

    4. MapReduce的Job管理

     

    所在位置

    数量

    作用

    Job Tracker

    可以和HDFS Namenode同机器部署,但大型集群会和namenode分开

    1个集群只有1个JobTracker进程

    1.处理来自JobClient的作业请求

    2.处理TaskTracker每3秒发来的心跳,根据心跳进行作业调度(及“重新”调度),任务进度监控等

    Note:通过“线程池” 来同时处理心跳和JobClient请求

    Task Tracker

        HDFS Datanode上

    1个节点1个TaskTracker进程

    1、每3秒汇报一次:1)正在运行的任务详情 2)可用的map, reduce任务数

    2、map, reduce任务的执行

     

    FAQ、在哪些节点上启动Map程序

    Split计算后会知道每个split的大小以及位置,Map遵循就近原则,尽量在数据所在的datanode上启动map进程

  • 相关阅读:
    sublime text 3 常用快捷键
    PHP注释-----PHPDOC
    正则表达式
    JavaScript中常用的函数
    网站特效离不开脚本,javascript是最常用的脚本语言,我们归纳一下常用的基础函数和语法:
    ubuntu16.04LTS下安装zookeeper
    HiveQL详解
    ubuntu16.04LTS下安装hive-2.1.0
    Hadoop环境 IDE配置(在eclipse中安装hadoop-eclipse-plugin-2.7.3.jar插件)
    Hadoop 数据节点DataNode异常
  • 原文地址:https://www.cnblogs.com/shay-zhangjin/p/7759403.html
Copyright © 2011-2022 走看看