zoukankan      html  css  js  c++  java
  • spark浅谈(3):

     一、shuffle操作

      1.spark中特定的操作会触发我们都知道的shuffle事件,shuffle是spark进行数据重新分布的机制,这通常涉及跨执行程序和机器来赋值数据,使得混洗称为复杂而且昂贵的操作。

      2.为了理解shuffle过程中所发生的事情,我们先来关注reduceByKey操作的例子。reduceByKey操作过程生成一个新的RDD,将其单个键的所有值组合成一个元组中和对该键关联的所有值执行reduce函数的结果。挑战在于,并非所有键的所有值都位于同一个分区上,甚至是同一个机器上,但是他们必须位于同一位置上才能计算结果。

      3.spark中,数据通常不是跨分区分布的,以方便其在必要的位置来执行指定的操作,在计算过程中,一个单独的任务会执行在一个单独的分区上,因此为了组织reduceByKey执行单个reduce任务的所有数据,spark需要执行全部的操作,它必须从所有分区来读取所有键的所有值,然后将各个值组合在一起以计算每个键的最终结果,这个过程称之为shuffle。

      4.尽管

  • 相关阅读:
    mysql开发
    mysql的初始化配置及命令行选项
    纪念Vamai
    JXU1NDRBJXU0RTJBJXU1MjJCJXU1NDI3
    Java8简明学习之新时间日期API
    Java8简明学习之Lambda表达式
    Java8简明学习之接口默认方法
    Java8简明学习之Optional
    JVM类加载器及Java类的生命周期
    Java反射拾遗
  • 原文地址:https://www.cnblogs.com/bigdata-stone/p/9977846.html
Copyright © 2011-2022 走看看