zoukankan      html  css  js  c++  java
  • 蓄水池问题

    “给出一个数据流,这个数据流的长度很大或者未知。并且对该数据流中数据只能访问一次。请写出一个随机选择算法,使得数据流中所有数据被选中的概率相等。”

    对于这种问题,一般可以从小的例子逐渐推导

    例如当数据流只有一个数据时,直接取改了为1

    两个数据时,生成一个0-1随机数,大于0.5选择1,每一个概率为0.5

    3个数据时怎么办呢?首先考虑前两个,可以按照上述方法剔除一个,比如剔除1剩下2,现在我们要从2与3里面选出一个。那么怎么选才合理呢?既然一共3个数据,那么应该每一个概率都是1/3。因为我们已经知道2已经经过了一个1/2的选择,那么我们如果让2的概率为1/3的话,在第二次选取的时候2应该遵循2/3的概率。(或者换种思路,3的概率应该是1/3)。

    于是推广到n时,假设当前正要读取第n个数据,则我们以1/n的概率留下该数据,否则留下前n-1个数据中的一个。前n-1个数据中数据被返回的概率为:1/(n-1)*(n-1)/n。如果是第一个数(或第一轮就开始比较),那么它的概率是1/2*2/3*...*(n-1)/(n)=1/n

  • 相关阅读:
    机器学习——模型评估与选择
    论文等级
    python简介
    记忆力
    PyQt 5控件
    PyQt5对话框
    PyQt 5事件和信号
    PyQt 5菜单和工具栏
    PyQt 5布局管理
    PyQt 5的基本功能
  • 原文地址:https://www.cnblogs.com/dylan9/p/8682001.html
Copyright © 2011-2022 走看看