MapReduce自定义二次排序流程 - 走看看

zoukankan html css js c++ java

MapReduce自定义二次排序流程

每一条记录开始是进入到map函数进行处理，处理完了之后立马就入自定义分区函数中对其进行分区，当所有输入数据经过map函数和分区函数处理完之后，就调用自定义二次排序函数对其进行排序。

MapReduce处理数据的大概简单流程：首先，MapReduce框架通过getSplit方法实现对原始文件的切片之后，每一个切片对应着一个map task，inputSplit输入到Map函数进行处理，中间结果经过环形缓冲区的排序,然后分区、自定义二次排序（如果有的话）和合并，再通过shuffle操作将数据传输到reduce task端，reduce端也存在着缓冲区，数据也会在缓冲区和磁盘中进行合并排序等操作，然后对数据按照Key值进行分组，然后没处理完一个分组之后就会去调用一次reduce函数，最终输出结果。

自定义比较器决定了我们二次排序的结果。自定义比较器需要继承WritableComparator类，并且重写compare方法实现自己的比较策略。

查看全文

相关阅读:
<整理> 在Bash中添加个人定制的命令
 <整理> linux常用命令及工具
 论文分享：目标检测-YOLO
Siamese Attentional Keypoint Network for High Performance Visual Tracking--论文笔记
 ubuntu 相关软件设置
 anoconda 神经网络相关操作
 转载：决策树算法梳理
 转载：XGBOOST算法梳理
 XGB算法梳理
 决策树算法梳理

原文地址：https://www.cnblogs.com/Mandylover/p/5229666.html

Copyright © 2011-2022 走看看