zoukankan      html  css  js  c++  java
  • 蓄水池问题

    问题抽象为:从n个数中随机采样k个,每个数被采样的概率是k/n。

    算法:

    将n个数按顺序编号1,2,3,...,k,k+1,k+2,...k+n-k

    选前k个数放到蓄水池里,

    对于i = 1...n-k

    按k/(k+i)的概率采样第k+i个数,然后随机跟蓄水池里的一个数替换。
    

    求证:遍历到结尾时,每个数出现在蓄水池里的概率都是k/n

    证明:

    (1) 对于前k个样本中的任意一个x,尽头时仍在蓄水池里的概率是:

    P(k之后的每一个数都没有替换x)

    = P(k+1没有替换x)*P(k+2没有替换x)*...*P(n没有替换x)

    = [1-(k/k+1 x 1/k)] *[1-(k/k+2 x 1/k)]*...*[1-(k/n x 1/k)]

    = k/(k+1)*(k+1)/(k+2)*(n-1)/n

    = k/n (2)对于k之后的k+i,尽头时出现在蓄水池的概率是:

    P(k+i被选中且之后没有被替换)

    = P(k+i被选中)*P(k+i+1没有替换k+i)*...*P(n没有替换k+i)

    = k/(k+i)*[1-(k/k+i+1*1/k)]*...* [1-(k/n x 1/k)]

    = k/(k+i)*(k+i)/(k+i+1)*…*(n-1)/n

    = k/n

    综合(1)和(2),遍历到结尾时,每个数出现在蓄水池里的概率都是k/n。

    证明结束。

  • 相关阅读:
    Python生成器
    Python迭代器
    Python异常处理
    Python面向对象进阶
    Python面向对象基础
    Python闭包和装饰器
    Python函数
    Python文件操作
    Python深浅拷贝
    Python的列表&元组&字典&集合
  • 原文地址:https://www.cnblogs.com/yuanmingzhou/p/11093575.html
Copyright © 2011-2022 走看看