问题抽象为:从n个数中随机采样k个,每个数被采样的概率是k/n。
算法:
将n个数按顺序编号1,2,3,...,k,k+1,k+2,...k+n-k
选前k个数放到蓄水池里,
对于i = 1...n-k
按k/(k+i)的概率采样第k+i个数,然后随机跟蓄水池里的一个数替换。
求证:遍历到结尾时,每个数出现在蓄水池里的概率都是k/n
证明:
(1) 对于前k个样本中的任意一个x,尽头时仍在蓄水池里的概率是:
P(k之后的每一个数都没有替换x)
= P(k+1没有替换x)*P(k+2没有替换x)*...*P(n没有替换x)
= [1-(k/k+1 x 1/k)] *[1-(k/k+2 x 1/k)]*...*[1-(k/n x 1/k)]
= k/(k+1)*(k+1)/(k+2)*(n-1)/n
= k/n (2)对于k之后的k+i,尽头时出现在蓄水池的概率是:
P(k+i被选中且之后没有被替换)
= P(k+i被选中)*P(k+i+1没有替换k+i)*...*P(n没有替换k+i)
= k/(k+i)*[1-(k/k+i+1*1/k)]*...* [1-(k/n x 1/k)]
= k/(k+i)*(k+i)/(k+i+1)*…*(n-1)/n
= k/n
综合(1)和(2),遍历到结尾时,每个数出现在蓄水池里的概率都是k/n。
证明结束。