Shuffle - 走看看

zoukankan html css js c++ java

Shuffle
Shuffle是MapReduce框架中的一个特定的phase，介于Map phase和Reduce phase之间，当Map的输出结果要被Reduce使用时，输出结果需要按key哈希，并且分发到每一个Reducer上去，这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输，因此shuffle性能的高低直接影响到了整个程序的运行效率。

下面这幅图清晰地描述了MapReduce算法的整个流程，其中shuffle phase是介于Map phase和Reduce phase之间。

以wordcount为例，map后形成(word, 1)的key-value对，在对这些key-value对进行reduce之前，需要把同样key的对放在一起，这个过程就是shuffle.

Spark中的shuffle流程：
- 首先每一个Mapper会根据Reducer的数量创建出相应的bucket，bucket的数量是
- 其次Mapper产生的结果会根据设置的partition算法填充到每个bucket中去。这里的partition算法是可以自定义的，当然默认的算法是根据key哈希到不同的bucket中去。
- 当Reducer启动时，它会根据自己task的id和所依赖的Mapper的id从远端或是本地的block manager中取得相应的bucket作为Reducer的输入进行处理。
这里的bucket是一个抽象概念，在实现中每个bucket可以对应一个文件，可以对应文件的一部分或是其他等。
查看全文

相关阅读:
5- MySQL数据库SELECT查询操作
 4- MySQL创建表以及增删改查
 3- MySQL数据类型
 2- MySQL客户端工具Workbench的使用及数据库的操作
 4-1 Postman脚本的应用
 ImportError: cannot import name HTTPSHandler
python zlib模块缺失报错：RuntimeError: Compression requires the (missing) zlib module
make 命令出现："make:*** No targets specified and no makefile found.Stop."
用Wget下载的文件在哪里可以找到。。
Linux wget命令详解

原文地址：https://www.cnblogs.com/mustone/p/5284436.html

Copyright © 2011-2022 走看看