HadoopMapReduce运行机制 - 走看看

zoukankan html css js c++ java

HadoopMapReduce运行机制

1.map方法读取一个文件的一行记录进行分析, 输入:LongWritable(当前读取的文件位置), Text(内容)

2.map将读取到的信息进行分类,输入Context (键值对) ;作为Reduce 的输入数据:

　　1)其中reduce 中的输入数据的先后是有顺序的,reduce-task 会先将所有的输入数据的Key先做一个排序

　　2)然后先处理输入的每一组数据按key的排序依次处理,

3.如何分组输入的所有的map结果中的key,mapreduce 使用的是一个GroupingComparator的类,的compare(o1,o2) 方法,如果方法放回0则相等;

3.当所有的map运行完后,mapreduce 框架会通过一个Patitioner 类进行reduce输入数据的分发.

默认的分发规则为:通过比较两个key的hashCode值与reduce个数取摩,

/** Use {@link Object#hashCode()} to partition. */
public int getPartition(K2 key, V2 value,
int numReduceTasks) {
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}返回的摩就是目标reduce task

查看全文

相关阅读:
JAVA多态
 JAVA中的继承
 Nginx配置中root和alisa指定文件路径的区别
 NGINX配置详解
 Jenkins填坑之邮件模板分享
 jenkins填坑之HTML报告样式问题
 Jenkins填坑之仅获取本次构建的HTML报告作为附件发送邮件
 Jenkins填坑之发送邮件无法获取HTML报告作为附件
 jenkins填坑之邮件模板中的变量无法正常获取值
 Jenkins填坑之构建ant项目时，执行结果提示input file xxx.jtl does not exist

原文地址：https://www.cnblogs.com/liuyongpingblog/p/10010168.html

Copyright © 2011-2022 走看看