zoukankan      html  css  js  c++  java
  • Spark RDD 的宽依赖和窄依赖 -- (视频笔记)

    窄依赖 narrow dependency

    map,filter,union ,

    join(co-partitioned)制定了父RDD中的分片具体交给哪个唯一的子RDD

    并行的,RDD分片是独立的。

    只依赖相同ID的分片

    range分片

    one to dependency

    range dependency

    内部可以previously computed partition

    可以将计算合并,可以极大的提升效率,编写的时候可能是多个函数,执行的时候合并成一个函数,极大的减少了零碎内存或磁盘资源。

    宽依赖

    groupByKey,join with inputs not co-partitioned

    多个子RDD的分片会依赖同一个父RDD分片

    或者说同一个父RDD的分片都有多个子RDD的分片使用。

    会产生shuffle。

    shuffle dependency

    【hash shuffle,sort shuffle】

  • 相关阅读:
    机器学习
    octave安装使用
    学习pytorch
    安装Pytorch
    下载软件的好地方
    python 内置模块time timedate random
    关于git
    python软件目录结构规范
    python 内置参数
    test
  • 原文地址:https://www.cnblogs.com/isenhome/p/5085872.html
Copyright © 2011-2022 走看看