zoukankan      html  css  js  c++  java
  • 宽依赖 (narrow dependency) 和窄依赖 (wide dependency)

    spark 中 task 分配:

    • 窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用
    • 宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用
    • 如果把每个分区看成集合中一个点,窄依赖是单设,宽依赖是满射。如果把分区看去邮DAG上一个点,入度为 1 为窄依赖
    • 窄依赖变宽依赖增加 stage,原因是这一步要 shuffle 操作,他要等所有分区存盘后才能进

    flink 中类似概念:

    Flink会尽可能地将operator的subtask链接(chain)在一起形成task。每个task在一个线程中执行。将operators链接成task是非常有效的优化:它能减少线程之间的切换,减少消息的序列化/反序列化,减少数据在缓冲区的交换,减少了延迟的同时提高整体的吞吐量。

    两个operator chain在一起的的条件:

    • 上下游的并行度一致
    • 下游节点的入度为1 (也就是说下游节点没有来自其他节点的输入)
    • 上下游节点都在同一个 slot group 中(下面会解释 slot group)
    • 下游节点的 chain 策略为 ALWAYS(可以与上下游链接,map、flatmap、filter等默认是ALWAYS)
    • 上游节点的 chain 策略为 ALWAYS 或 HEAD(只能与下游链接,不能与上游链接,Source默认是HEAD)
    • 两个节点间数据分区方式是 forward(参考理解数据流的分区) 用户没有禁用 chain
  • 相关阅读:
    Genymotion安卓模拟器和VirtualBox虚拟机安装、配置、测试(win7_64bit)
    jQuery UI (15)图标
    CSS(01)CSS层叠样式表
    Jquery(12)Jquery Ajax跨域访问
    Jquery(13)Jquery this的指向
    Jquery(18)Jquery Cookie操作
    EntityFramework报错
    单例模式应用
    FormCollection的用法
    $.ajax、$.post[转]
  • 原文地址:https://www.cnblogs.com/wudeyun/p/13660540.html
Copyright © 2011-2022 走看看