mr自定义排序和分类

zoukankan html css js c++ java

mr自定义排序和分类

一、上文的补充

　　1、setup方法一般是用来初始化和加载资源的，主要也是因为编写mr程序所使用jvm和跑mr所使用的jvm并不是同一个，它们之间数据也不能共享，所以需要在setup里进行load。

　　2、上文提到了可以自定义类型，当你需要使用这个自定义类型来做key时，你可以指定一个Comparator，当然也可以是自定义的Comparator。

　　例如：

　　public class MyKey implements WritableComparable<MyKey> {

　　　　...

　　　　static {
　　　　　　WritableComparator.define(MyKey.class, new MyComparator());
　　　　}

　　}

　　3、在shuffle阶段是如何进行分组的？默认分组是通过key的值来进行比较的，也就是equals方法，当我们自定义key的时候，并需要按照key中某个属性来进行分组时，就需要实现自定义分组，并通过setGroupingComparatorClass来进行设置。

　　4、protected void reduce(MyKey key,Iterable<MyValue> values,Context context)，其中MyKey由key1和key2组成，分组时按照key1进行分组。在分组完成后进入reduce方法后，是由key来找寻value，还是由value来寻找key呢，我猜测是后者（没看源码不能保证）。所以我们在遍历values时，每个value可能对应不同的key。

二、自定义排序和分组

　　自定义排序和分组都是继承WritableComparator，并重写compare方法，只不过设置时一个是在自定义key时来进行注册（WritableComparator.define），一个是run里来设置（setGroupingComparatorClass）

查看全文

相关阅读:
操作系统之磁盘结构笔记
 Linux 操作系统位数(32or64)识别
 手把手教你mysql(十)索引
 Linux命令 — 设置或查看网络配置命令ifconfig
字符数组的排列
 android 加载图片防止内存溢出
 eCos系统CPU负载测量
 模糊控制——理论基础（4模糊推理）
模糊控制——理论基础（3模糊关系及其运算）
模糊控制——理论基础（2隶属函数）

原文地址：https://www.cnblogs.com/java-meng/p/11213226.html