zoukankan      html  css  js  c++  java
  • Hadoop之WritableComprale 排序

    Hadoop之WritableComprale 排序

    Hadoop只对key进行排序

    排序是 MapReduce 框架中最重要的操作之一。Map Task 和 Reduce Task 均会对数据(按照 key)进行排序。
    该操作属于 Hadoop 的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。
    默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。对于 Map Task,它会将处理的结果暂时放到一个缓冲区
    中,当缓冲区使用率达到一定阈值后,再对缓冲区中的数据进行一次排序,并将这些有序数据写到磁盘上,而当数据处理完毕
    后,它会对磁盘上所有文件进行一次合并,以将这些文件合并成一个大的有序文件。对于 Reduce Task,它从每个 Map Task
    上远程拷贝相应的数据文件,如果文件大小超过一定阈值,则放到磁盘上,否则放到内存中。如果磁盘上文件数目达到一定阈
    值,则进行一次合并以生成一个更大文件;如果内存中文件大小或者数目超过一定阈值,则进行一次合并后将数据写到磁盘
    上。当所有数据拷贝完毕后,Reduce Task 统一对内存和磁盘上的所有数据进行一次合并。

    部分排序(区内排序)

    MapReduce 根据输入记录的键对数据集排序。保证输出的每个文件内部排序。

    //实现在每个分区文件内部进行有序输出
    //排序的实体类需要实现WritableComparable  重写 compareTo方法  
    //让实体类作为key 即可
    

    全排序

    如何用 Hadoop 产生一个全局排序的文件?最简单的方法是使用一个分区。但该方法在
    处理大型文件时效率极低,因为一台机器必须处理所有输出文件,从而完全丧失了
    MapReduce 所提供的并行架构。
    替代方案:首先创建一系列排好序的文件;其次,串联这些文件;最后,生成一个全局
    排序的文件。主要思路是使用一个分区来描述输出的全局排序。例如:可以为上述文件创建
    3 个分区,在第一分区中,记录的单词首字母 a-g,第二分区记录单词首字母 h-n, 第三分区
    记录单词首字母 o-z。

    //排序的实体类需要实现WritableComparable  重写 compareTo方法
    public class PhoneDataSortBean implements WritableComparable<PhoneDataSortBean> {
    
        private long up;
        private long down;
        private long sum;
    
        @Override
        public String toString() {
            return up +
                    "	" + down +
                    "	" + sum;
        }
    
        public PhoneDataSortBean(long up, long down) {
            this.up = up;
            this.down = down;
            this.sum = up + down;
        }
    
        public PhoneDataSortBean() {
        }
    
        public long getUp() {
            return up;
        }
    
        public void setUp(long up) {
            this.up = up;
        }
    
        public long getDown() {
            return down;
        }
    
        public void setDown(long down) {
            this.down = down;
        }
    
        public long getSum() {
            return sum;
        }
    
        public void setSum(long sum) {
            this.sum = sum;
        }
    
        @Override
        public int compareTo(PhoneDataSortBean o) {
            //按照总流量排序
            return (int) (o.sum - this.sum);
        }
    
        @Override
        public void write(DataOutput dataOutput) throws IOException {
            dataOutput.writeLong(this.down);
            dataOutput.writeLong(this.up);
            dataOutput.writeLong(this.sum);
        }
    
        @Override
        public void readFields(DataInput dataInput) throws IOException {
            this.down = dataInput.readLong();
            this.up = dataInput.readLong();
            this.sum = dataInput.readLong();
        }
    }
    

    辅助排序:(GroupingComparator 分组)

    Mapreduce 框架在记录到达 reducer 之前按键对记录排序,但键所对应的值并没有被排
    序。甚至在不同的执行轮次中,这些值的排序也不固定,因为它们来自不同的 map 任务且
    这些 map 任务在不同轮次中完成时间各不相同。一般来说,大多数 MapReduce 程序会避免
    让 reduce 函数依赖于值的排序。但是,有时也需要通过特定的方法对键进行排序和分组等
    以实现对值的排序。

    二次排序

    在自定义排序过程中,如果 compareTo 中的判断条件为两个即为二次排序。

    本博客仅为博主学习总结,感谢各大网络平台的资料。蟹蟹!!

  • 相关阅读:
    给TextView添加超链接的四种方式
    详解ExplosionField的使用,实现View的粉碎效果
    SpannableString使用详解
    android开发之wheel控件使用详解
    使用HttpURLConnection实现在android客户端和服务器之间传递对象
    关于Fragment与Fragment、Activity通信的四种方式
    Volley完全解析
    ListView异步加载图片,完美实现图文混排
    使用DrawerLayout实现QQ5.0侧拉菜单效果
    使用DrawerLayout实现侧拉菜单
  • 原文地址:https://www.cnblogs.com/shaofeer/p/11154308.html
Copyright © 2011-2022 走看看