zoukankan      html  css  js  c++  java
  • 028 Partitioner:数据分区器

    Partitioner:数据分区器,决定数据到下一个RDD的时候在那一个分区
      HashPartitioner:根据key的hashCode值来实现
      RangePartitioner: 根据key所属范围的进行分区
        1. 先进行数据抽样,对抽样数据进行排序后得到分区的边界数据
        2. 根据key在边界数据中所属的位置来判断分区的id


    注意:90%的API默认使用HashPartitioner分区器,sortByKey使用RangePartitioner(RangePartitioner主要用于需要按照分区进行数据排序的)

  • 相关阅读:
    Nginx
    Influxdb
    Gitlab
    Git
    Gogs
    Dockerfile
    Docker Data
    My Projects
    中文学习
    科技精选
  • 原文地址:https://www.cnblogs.com/juncaoit/p/6527975.html
Copyright © 2011-2022 走看看