zoukankan      html  css  js  c++  java
  • Spark中hashshuffle与sortshuffle

    在spark1.2以上的版本中,默认shuffle的方式已经变成了sortshuffle(在spark.shuffle.manager修改org.apache.spark.shuffle.sort.HashShuffleManager或者org.apache.spark.shuffle.sort.SortShuffleManager进行切换)。  

    hashshuffle会在map根据reduce来生成文件。 也就是说如果reduce有10个,那么一个map就会生成一个文件,来表明被不同的reduce使用。

    sortshuffle会在map后进行数据排序,只会生成一个文件,然后在这个文件中offset偏移量来区别要进入到哪个reduce。

    大概是这样,要根据实际情况来确定使用哪个方法。

  • 相关阅读:
    负数幅角的选取
    记一次py交易
    区间估计
    平方和
    正态总体 下常用结论
    每日一背
    乘积的期望
    java调用javascript
    Java Agent入门
    JavaPoet入门
  • 原文地址:https://www.cnblogs.com/hark0623/p/4530409.html
Copyright © 2011-2022 走看看