在一个给定长度的数组中随机等概率抽取一个数据很容易,但如果面对的是长度未知的海量数据流呢?蓄水池采样(Reservoir Sampling)算法就是来解决这个问题的, 它在分析一些大数据集的时候非常有用。
- 基本概念
细看后,我们可以对其进行扩展,假如从未知或者很大样本空间随机地取k个数?
类比下即可得到答案,即先把前k个数放入蓄水池,对第k+1,我们以k/(k+1)概率决定是否要把它换入蓄水池,换入时随机的选取一个作为替换项,这样一直做下去,对于任意的样本空间n,对每个数的选取概率都为k/n。也就是说对每个数选取概率相等。
- 算法的正确证明
定理:该算法保证每个元素以 k / n 的概率被选入蓄水池数组。
证明:首先,对于任意的 i,第 i 个元素进入蓄水池的概率为 k / i;而在蓄水池内每个元素被替换的概率为 1 / k; 因此在第 i 轮第j个元素被替换的概率为 (k / i ) * (1 / k) = 1 / i。 接下来用数学归纳法来证明,当循环结束时每个元素进入蓄水池的概率为 k / n.
假设在 (i-1) 次迭代后,任意一个元素进入 蓄水池的概率为 k / (i-1)。有上面的结论,在第 i 次迭代时,该元素被替换的概率为 1 / i, 那么其不被替换的概率则为 1 - 1/i = (i-1)/i;在第i 此迭代后,该元素在蓄水池内的概率为 k / (i-1) * (i-1)/i = k / i. 归纳部分结束。
因此当循环结束时,每个元素进入蓄水池的概率为 k / n. 命题得证。
- Java实现
1 在一个给定长度的数组中随机等概率抽取一个数据很容易,但如果面对的是长度未知的海量数据流呢?蓄水池采样(Reservoir Sampling)算法就是来解决这个问题的, 它在分析一些大数据集的时候非常有用。 2 基本概念 3 4 细看后,我们可以对其进行扩展,假如从未知或者很大样本空间随机地取k个数? 5 6 类比下即可得到答案,即先把前k个数放入蓄水池,对第k+1,我们以k/(k+1)概率决定是否要把它换入蓄水池,换入时随机的选取一个作为替换项,这样一直做下去,对于任意的样本空间n,对每个数的选取概率都为k/n。也就是说对每个数选取概率相等。 7 8 9 算法的正确证明 10 定理:该算法保证每个元素以 k / n 的概率被选入蓄水池数组。 11 12 证明:首先,对于任意的 i,第 i 个元素进入蓄水池的概率为 k / i;而在蓄水池内每个元素被替换的概率为 1 / k; 因此在第 i 轮第j个元素被替换的概率为 (k / i ) * (1 / k) = 1 / i。 接下来用数学归纳法来证明,当循环结束时每个元素进入蓄水池的概率为 k / n. 13 14 假设在 (i-1) 次迭代后,任意一个元素进入 蓄水池的概率为 k / (i-1)。有上面的结论,在第 i 次迭代时,该元素被替换的概率为 1 / i, 那么其不被替换的概率则为 1 - 1/i = (i-1)/i;在第i 此迭代后,该元素在蓄水池内的概率为 k / (i-1) * (i-1)/i = k / i. 归纳部分结束。 15 16 因此当循环结束时,每个元素进入蓄水池的概率为 k / n. 命题得证。 17 18 Java实现 19 [java] view plain copy 20 import java.util.Arrays; 21 import java.util.Random; 22 23 public class ReservoirSamplingAlgorithm { 24 public static void main(String[] args) { 25 int k=10; 26 int n=1000; 27 int[] data=new int[n]; 28 for(int i=0;i<n;i++){ 29 data[i]=i; 30 } 31 int[] result=reservoirSampling(data,k); 32 System.out.println(Arrays.toString(result)); 33 } 34 35 public static int[] reservoirSampling(int[] data,int k){ 36 if(data==null){ 37 return new int[0]; 38 } 39 if(data.length<k){ 40 return new int[0]; 41 } 42 int[] result=new int[k]; 43 int n=data.length; 44 for(int i=0;i<n;i++){ 45 if(i<k){ 46 result[i]=data[i];<a href="http://www.cnblogs.com/HappyAngel/archive/2011/02/07/1949762.html" target="_blank">参考博客</a> 47 }else{ 48 int j=new Random().nextInt(i); 49 if(j<k){ 50 result[j]=data[i]; 51 } 52 } 53 } 54 return result; 55 } 56 } 57 58 59 60 参考博客来源:参考博客
参考博客来源:参考博客