zoukankan html css js c++ java

01_MapReduce流程总结

1. MapReduce整体流程

1、每个map，reduce都作为1个独立进程process启动（多进程并发方式，spark是多线程并发）

2、由于进程空间独享，因此方便控制每个map, reduce任务的资源和调配，但进程的启动慢

3、多线程运行的更快，因此spark有更高的时效性，缺点在于多线程带来的稳定性低（相比map, reduce）

Inputformat包含Data Split、Record Reader两部分功能。 Inputformat根据block进行Split, 当有一个记录横跨在两个block上时，会将这条记录归属于前一个split (该split的大小就大于1个block大小)，从而保证记录不会被切散

所在位置

数量

作用

Job Tracker

可以和HDFS Namenode同机器部署，但大型集群会和namenode分开

1个集群只有1个JobTracker进程

1.处理来自JobClient的作业请求

2.处理TaskTracker每3秒发来的心跳，根据心跳进行作业调度（及“重新”调度），任务进度监控等

Note：通过“线程池” 来同时处理心跳和JobClient请求

Task Tracker

HDFS Datanode上

1个节点1个TaskTracker进程

1、每3秒汇报一次：1）正在运行的任务详情 2）可用的map, reduce任务数

2、map, reduce任务的执行

FAQ、在哪些节点上启动Map程序

Split计算后会知道每个split的大小以及位置，Map遵循就近原则，尽量在数据所在的datanode上启动map进程

查看全文

相关阅读:
第三方接口开发规范
 项目经理、技术经理、team leader
ibatis #和$符号的区别，传入字符串而不加引号
 WindowManager.LayoutParams详解
 AIDL 编译报can be an out parameter, so you must declare it as in, out or inout原因探究
 map里的keyset()和entryset()方法.
android 使用代码实现 RelativeLayout布局
 Android中的Selector
intentfilter 之 data 「scheme, host, port, mimeType, path, pathPrefix, pathPattern」
找信息的方法