zoukankan      html  css  js  c++  java
  • 蓄水池抽样算法

       给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)。

      这一题应该可以用来解决微信红包分配之类的那种问题,主要是概率的证明挺有意思。

      

     1 #include <iostream>
     2 #include <algorithm>
     3 #include <time.h>
     4 
     5 using namespace std;
     6 
     7 typedef struct _list
     8 {
     9     int element;
    10     struct _list *next;
    11 }List;
    12 
    13 void Search(const int, const int,List *);
    14 
    15 int main(void)
    16 {
    17     /*Demo:            蓄水池抽样算法
    18      *Describe:        给定一个链表,里面含有元素N个,要你从中找k个元素(k<N),只能遍历一遍链表,应该如何查找?
    19      *Solve:        首先构建一个可放k个元素的蓄水池,将序列的前k个元素放入蓄水池中。
    20                     然后从第k+1个元素开始,以k/n的概率来决定该元素是否被替换到池子中。 
    21                     当遍历完所有元素之后,就可以得到随机挑选出的k个元素。复杂度为O(n)。
    22      *Demonstrate:    证明每个数被取到的概率为k/n:
    23 
    24                     对于第i个数(i<k),在前k步被选中的概率是1, 从第k+1步开始,i不被选中的概率为k/k+1,那么读到第n个数时, 
    25                     第i个数(i<k)被选中的概率 = 被选中的概率 * 以后每一步都不被换走的概率,即
    26                     1 * k/k+1 * k+1/k+2 …n-1/n = k/n
    27 
    28                     对于第j个数(j>=k)被选中的概率为: 在他出现时被选中的概率 * 在他出现以后不被换走的概率,即: 
    29                     k/j * j /j+1 。。。n-1/n = k/n
    30     */
    31     int n, k;
    32     std::ios::sync_with_stdio(false);
    33     cin >> n >> k;
    34 
    35     List *list_Ptr = new List[n];
    36     srand((unsigned)time(NULL));
    37     for (int i = 1; i < n; i++)
    38     {
    39         (list_Ptr[i - 1]).next = &list_Ptr[i];
    40         (list_Ptr[i - 1]).element = rand();
    41         cout << (list_Ptr[i - 1]).element<<" ";
    42     }
    43     (list_Ptr[n - 1]).next = NULL;
    44     (list_Ptr[n - 1]).element = rand();
    45     cout << (list_Ptr[n - 1]).element <<"
    "<< endl;
    46     Search(n, k, list_Ptr);
    47 
    48     system("pause");
    49     delete list_Ptr;
    50     return EXIT_SUCCESS;
    51 }
    52 
    53 void Search(const int n, const int k, List *list_ptr)
    54 {
    55     int *pool = new int[k];
    56     int sum = 0, i, rand_seed;
    57 
    58     for (i = 0; i < k; i++, list_ptr = list_ptr->next)
    59         pool[sum++] = list_ptr->element;
    60 
    61     for (; i < n; i++, list_ptr = list_ptr->next)
    62     {
    63         rand_seed = rand();
    64         if (rand_seed < (double)RAND_MAX*(double)(k / i + 1))
    65             swap(pool[(int)(((double)rand_seed / (double)RAND_MAX)*(double)k)], list_ptr->element);
    66     }
    67     for (int i = 0; i < k; i++)
    68         cout << pool[i] << " ";
    69     cout << endl;
    70 
    71     delete pool;
    72 }

      来源:http://www.cnblogs.com/ywl925/p/3793003.html

      至于为什么那个随机函数要这样写,因为上次写项目的时候我发现了一个取余来控制概率的一个很严重的bug,那就是取余之后,概率的分配是不均匀的(概率生成函数是随机的),好像这样写可以解决这个问题。

  • 相关阅读:
    当Java遇到XML 的邂逅+dom4j
    idea集成项目管理工具 --- Maven 并且【配置tomcat】
    C#连接操作MySQL数据库详细步骤 帮助类等(二次改进版)
    MySQL 中国省市区SQL表数据
    LeetCode-28. 实现 strStr()
    LeetCode-66 加一
    头插法将单链表原地逆转
    LeetCode:27 移除元素
    LeetCode:26删除有序数组中相同的数.(Python3)
    LeetCode-21 有序链表的合并
  • 原文地址:https://www.cnblogs.com/Philip-Tell-Truth/p/5183702.html
Copyright © 2011-2022 走看看