zoukankan html css js c++ java

在hadoop作业中自定义分区和归约

当遇到有特殊的业务需求时，需要对hadoop的作业进行分区处理

那么我们可以通过自定义的分区类来实现

还是通过单词计数的例子，JMapper和JReducer的代码不变，只是在JSubmit中改变了设置默认分区的代码，见代码：

		//1.3分区
		//设置自定义分区类
		job.setPartitionerClass(JPartitioner.class);
		//设置分区个数--这里设置成2，代表输出分为2个区，由两个reducer输出
		job.setNumReduceTasks(2);

自定义的JPartitioner代码如下：

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

//自定义的分区类必须继承Partitioner类，这里只要继承默认的HashPartitioner，并重写getPartition方法即可
public class JPartitioner extends HashPartitioner<Text, LongWritable> {
	@Override
	public int getPartition(Text key, LongWritable value, int numReduceTasks) {
		//由于之前在代码中设置了分区的个数为2,
		//getPartition方法的返回值就是分区的下标，如：第一个分区return 0，第二个return 1
		//如果key的长度小于4，那么将这些键值对分入第一个区
		//否则就分入第二个区，<span style="font-family: Arial, Helvetica, sans-serif;">numReduceTasks是设置的分区数量</span>
		return key.toString().length() < 4 ? 1 % numReduceTasks
<span style="white-space:pre">				</span>: 2 % numReduceTasks;
	}
}

自定义分区就完成了

如果在海量数据的情况下，可能要设置归约（combiner）来减轻网络和reducer的压力

那么可以再JSubmit中通过代码设置combiner的类来启动

代码很简单，就一句话

<span style="white-space:pre">		</span>//1.5归约
		job.setCombinerClass(JReducer.class);

其实combiner和reducer都是设置的JReducer

侧面反映了combiner的角色作就是本地的reducer

查看全文

相关阅读:
总结系列_3(opencv中c版本和c++版本区别体验,续...)
深入理解JavaScript系列（29）：设计模式之装饰者模式
 深入理解JavaScript系列（33）：设计模式之策略模式
 深入理解JavaScript系列（35）：设计模式之迭代器模式
 深入理解JavaScript系列（36）：设计模式之中介者模式
 深入理解JavaScript系列（34）：设计模式之命令模式
 深入理解JavaScript系列（31）：设计模式之代理模式
 深入理解JavaScript系列（37）：设计模式之享元模式
 深入理解JavaScript系列（32）：设计模式之观察者模式
 大叔手记（21）：汤姆大叔博客园开博100天总结

原文地址：https://www.cnblogs.com/jchubby/p/4429700.html