zoukankan      html  css  js  c++  java
  • Spark-水库抽样-根据抽样率确定每个分区的样本大小

     /*
      * 输入:采样率,待采样的RDD
      * 输出:每个分区的样本大小(记录数)
      * 由采样率确定,每个分区的样本大小
       */
    def findNumPerPartition[T: ClassTag, U: ClassTag](sampleRate : Double, rddNum : RDD[T]): Int ={
      //RDD总记录数
      val numRdd=rddNum.count()
      //RDD的分区数
      val numPartition=rddNum.partitions.size
      //样本总记录数
      val numSample=rddNum.count()*sampleRate
      //每个分区准备抽样的样本记录数
      val numSamplePerPartition=(numSample/numPartition).toInt
      (numSamplePerPartition)
    }
  • 相关阅读:
    PHP5.4中新增的traits
    PHP各版本的区别
    冒泡排序原理
    服务器&linux
    PHP
    excel 导出
    try cache
    sql
    Linux下php安装Redis扩展
    Redis安装部署
  • 原文地址:https://www.cnblogs.com/moonlightml/p/10220973.html
Copyright © 2011-2022 走看看