zoukankan      html  css  js  c++  java
  • 蓄水池采样(Reservoir Sampling)

    在一个给定长度的数组中随机等概率抽取一个数据很容易,但如果面对的是长度未知的海量数据流呢?蓄水池采样(Reservoir Sampling)算法就是来解决这个问题的, 它在分析一些大数据集的时候非常有用。

    • 基本概念

    细看后,我们可以对其进行扩展,假如从未知或者很大样本空间随机地取k个数?

      类比下即可得到答案,即先把前k个数放入蓄水池,对第k+1,我们以k/(k+1)概率决定是否要把它换入蓄水池,换入时随机的选取一个作为替换项,这样一直做下去,对于任意的样本空间n,对每个数的选取概率都为k/n。也就是说对每个数选取概率相等。

    • 算法的正确证明

    定理:该算法保证每个元素以 k / n 的概率被选入蓄水池数组。

    证明:首先,对于任意的 i,第 i 个元素进入蓄水池的概率为 k / i;而在蓄水池内每个元素被替换的概率为 1 / k; 因此在第 i 轮第j个元素被替换的概率为 (k / i ) * (1 / k) = 1 / i。 接下来用数学归纳法来证明,当循环结束时每个元素进入蓄水池的概率为 k / n.

    假设在 (i-1) 次迭代后,任意一个元素进入 蓄水池的概率为 k / (i-1)。有上面的结论,在第 i 次迭代时,该元素被替换的概率为 1 / i, 那么其不被替换的概率则为 1 - 1/i = (i-1)/i;在第i 此迭代后,该元素在蓄水池内的概率为 k / (i-1) * (i-1)/i = k / i. 归纳部分结束。

    因此当循环结束时,每个元素进入蓄水池的概率为 k / n. 命题得证。

    • Java实现
     1 在一个给定长度的数组中随机等概率抽取一个数据很容易,但如果面对的是长度未知的海量数据流呢?蓄水池采样(Reservoir Sampling)算法就是来解决这个问题的, 它在分析一些大数据集的时候非常有用。
     2 基本概念
     3 
     4 细看后,我们可以对其进行扩展,假如从未知或者很大样本空间随机地取k个数?
     5 
     6   类比下即可得到答案,即先把前k个数放入蓄水池,对第k+1,我们以k/(k+1)概率决定是否要把它换入蓄水池,换入时随机的选取一个作为替换项,这样一直做下去,对于任意的样本空间n,对每个数的选取概率都为k/n。也就是说对每个数选取概率相等。
     7 
     8 
     9 算法的正确证明
    10 定理:该算法保证每个元素以 k / n 的概率被选入蓄水池数组。
    11 
    12 证明:首先,对于任意的 i,第 i 个元素进入蓄水池的概率为 k / i;而在蓄水池内每个元素被替换的概率为 1 / k; 因此在第 i 轮第j个元素被替换的概率为 (k / i ) * (1 / k) = 1 / i。 接下来用数学归纳法来证明,当循环结束时每个元素进入蓄水池的概率为 k / n.
    13 
    14 假设在 (i-1) 次迭代后,任意一个元素进入 蓄水池的概率为 k / (i-1)。有上面的结论,在第 i 次迭代时,该元素被替换的概率为 1 / i, 那么其不被替换的概率则为 1 - 1/i = (i-1)/i;在第i 此迭代后,该元素在蓄水池内的概率为 k / (i-1) * (i-1)/i = k / i. 归纳部分结束。
    15 
    16 因此当循环结束时,每个元素进入蓄水池的概率为 k / n. 命题得证。
    17 
    18 Java实现
    19 [java] view plain copy
    20 import java.util.Arrays;  
    21 import java.util.Random;  
    22   
    23 public class ReservoirSamplingAlgorithm {  
    24     public static void main(String[] args) {  
    25         int k=10;  
    26         int n=1000;  
    27         int[] data=new int[n];  
    28         for(int i=0;i<n;i++){  
    29             data[i]=i;  
    30         }  
    31         int[] result=reservoirSampling(data,k);  
    32         System.out.println(Arrays.toString(result));  
    33     }  
    34   
    35     public static int[] reservoirSampling(int[] data,int k){  
    36         if(data==null){  
    37             return new int[0];  
    38         }  
    39         if(data.length<k){  
    40             return new int[0];  
    41         }  
    42         int[] result=new int[k];  
    43         int n=data.length;  
    44         for(int i=0;i<n;i++){  
    45             if(i<k){  
    46                 result[i]=data[i];<a href="http://www.cnblogs.com/HappyAngel/archive/2011/02/07/1949762.html" target="_blank">参考博客</a>  
    47             }else{  
    48                 int j=new Random().nextInt(i);  
    49                 if(j<k){  
    50                     result[j]=data[i];  
    51                 }  
    52             }  
    53         }  
    54         return result;  
    55     }  
    56 }  
    57 
    58 
    59 
    60 参考博客来源:参考博客
    View Code


     
    参考博客来源:参考博客
  • 相关阅读:
    [Android][Framework]裁剪SystemServer服务以及关闭SystemFeature
    [TensorFlow]Tensor维度理解
    [Objective-C]用Block实现链式编程
    [iOS]创建界面方法的讨论
    [Objective-C]编程艺术 笔记整理
    [Objective-C] Copy 和 MutableCopy
    win10的react native 开发环境搭建,使用Android模拟器
    填坑:Windows下使用OpenSSL生成自签证书(很简单,一个晚上搞明白的,让后来者少走弯路)
    转载:量化投资中常用python代码分析(一)
    转载:python生成以及打开json、csv和txt文件
  • 原文地址:https://www.cnblogs.com/kincolle/p/8266651.html
Copyright © 2011-2022 走看看