zoukankan      html  css  js  c++  java
  • 蓄水池抽样算法

    问题定义

    给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)。

    求解

    蓄水池抽样算法:

    该算法是针对从一个序列中随机抽取不重复的k个数,保证每个数被抽取到的概率为k/n这个问题而构建的。做法是: -
    首先构建一个可放k个元素的蓄水池,将序列的前k个元素放入蓄水池中。
    然后从第k+1个元素开始,以k/n的概率来决定该元素是否被替换到池子中。 当遍历完所有元素之后,就可以得到随机挑选出的k个元素。复杂度为O(n).

    其伪代码如下:

    Init : a reservoir with the size: k

            for    i= k+1 to N

                M=random(1, i);
                if( M < k)
                     SWAP the Mth value and ith value
           end for

    证明每个数被取到的概率为k/n:

        1. 对于第i个数(i<k),在前k步被选中的概率是1, 从第k+1步开始,i不被选中的概率为k/k+1,那么读到第n个数时, 第i个数(i<k)被选中的概率 = 被选中的概率 * 以后每一步都不被换走的概率,即
          1 * k/k+1 * k+1/k+2 n-1/n = k/n

        2. 对于第j个数(j>=k)被选中的概率为: 在他出现时被选中的概率 * 在他出现以后不被换走的概率,即: 
          k/j * j /j+1 。。。n-1/n = k/n

        3. 综上得证。


  • 相关阅读:
    列表去重
    URL和URI的不同
    functional program language
    thinkphp5_笔记二
    关于《提问智慧》的笔记
    实习记录_2
    关于用户表的设计
    30秒运行超时的错误(Maximum execution time of 30 seconds exceeded)
    thinkphp5_笔记一
    Jquary 和Ajax实现简单的异步请求
  • 原文地址:https://www.cnblogs.com/ywl925/p/3793003.html
Copyright © 2011-2022 走看看