spark浅谈(3): - 走看看

zoukankan html css js c++ java

spark浅谈(3):

一、shuffle操作

　　1.spark中特定的操作会触发我们都知道的shuffle事件，shuffle是spark进行数据重新分布的机制，这通常涉及跨执行程序和机器来赋值数据，使得混洗称为复杂而且昂贵的操作。

　　2.为了理解shuffle过程中所发生的事情，我们先来关注reduceByKey操作的例子。reduceByKey操作过程生成一个新的RDD，将其单个键的所有值组合成一个元组中和对该键关联的所有值执行reduce函数的结果。挑战在于，并非所有键的所有值都位于同一个分区上，甚至是同一个机器上，但是他们必须位于同一位置上才能计算结果。

　　3.spark中，数据通常不是跨分区分布的，以方便其在必要的位置来执行指定的操作，在计算过程中，一个单独的任务会执行在一个单独的分区上，因此为了组织reduceByKey执行单个reduce任务的所有数据，spark需要执行全部的操作，它必须从所有分区来读取所有键的所有值，然后将各个值组合在一起以计算每个键的最终结果，这个过程称之为shuffle。

　　4.尽管

查看全文

相关阅读:
右键点击属性截图不了
 win7再分配磁盘新加卷
 oracle逻辑存储结构
 ORACLE spool打印
 oracle实例状态
 基于SCN增量恢复DG同步
 delete误删数据使用SCN恢复
 DG中模拟failover故障与恢复
 NFS挂载遇到的问题
 关于“身为父母”

原文地址：https://www.cnblogs.com/bigdata-stone/p/9977846.html

Copyright © 2011-2022 走看看