zoukankan      html  css  js  c++  java
  • mr自定义排序和分类

    一、上文的补充

      1、setup方法一般是用来初始化和加载资源的,主要也是因为编写mr程序所使用jvm和跑mr所使用的jvm并不是同一个,它们之间数据也不能共享,所以需要在setup里进行load。

      2、上文提到了可以自定义类型,当你需要使用这个自定义类型来做key时,你可以指定一个Comparator,当然也可以是自定义的Comparator。

      例如:

      public class MyKey implements WritableComparable<MyKey> {

        ...

        static {
          WritableComparator.define(MyKey.class, new MyComparator());
        }

      }

      3、在shuffle阶段是如何进行分组的?默认分组是通过key的值来进行比较的,也就是equals方法,当我们自定义key的时候,并需要按照key中某个属性来进行分组时,就需要实现自定义分组,并通过setGroupingComparatorClass来进行设置。

      4、protected void reduce(MyKey key,Iterable<MyValue> values,Context context),其中MyKey由key1和key2组成,分组时按照key1进行分组。在分组完成后进入reduce方法后,是由key来找寻value,还是由value来寻找key呢,我猜测是后者(没看源码不能保证)。所以我们在遍历values时,每个value可能对应不同的key。

    二、自定义排序和分组

      自定义排序和分组都是继承WritableComparator,并重写compare方法,只不过设置时一个是在自定义key时来进行注册(WritableComparator.define),一个是run里来设置(setGroupingComparatorClass)

  • 相关阅读:
    resin网站出错!
    Java的编译与执行
    对SDK、JDK、JRE和JVM的理解总结
    第一个JDBC实例 操作MYSQL数据库
    三种定义JavaScript函数方法以及使用匿名函数打造自己的类库
    JavaScript 闭包原理和闭包实现
    学习Java运算符时的取余(%)和自加减(++、)的小结
    chmod 命令用法
    Eclipse快捷键大全
    ||运算符在JavaScript的另类用法
  • 原文地址:https://www.cnblogs.com/java-meng/p/11213226.html
Copyright © 2011-2022 走看看