zoukankan      html  css  js  c++  java
  • 一道Google面试题——基数排序思想

    题目描述:

      一个大小为n的数组,里面的数都属于范围[0,n-1],有不确定的重复元素,找到至少一个重复元素,要求O(1)空间和O(n)时间

    算法分析: 

      这个题目要求用O(n)的时间复杂度,这意味着只能遍历数组一次。同时还要寻找重复元素,很容易想到建立哈希表来完成,遍历数组时将每个元素映射到哈希表中,如果哈希表中已经存在这个元素则说明这就是个重复元素。因此直接使用C++ STL中的hash_set,可以方便的在O(n)时间内完成对重复元素的查找。

        但是题目却在空间复杂度上有限制——要求为O(1)的空间。因此采用哈希表这种解法肯定在空间复杂度上是不符合要求的。但可以沿着哈希法的思路继续思考,题目中数组中所以数字都在范围[0, n-1],因此哈希表的大小为n即可。因此我们实际要做的就是对n个范围为0到n-1的数进行哈希,而哈希表的大小刚好为n。对排序算法比较熟悉的同学不难发现这与一种经典的排序算法——基数排序非常类似。而基数排序的时间空间复杂度刚好符合题目要求!因此尝试使用基数排序来解这道面试题。

    举例分析:

      下面以2,4,1,5,7,6,1,9,0,2这十个数为例,展示下如何用基数排序来查找重复元素。

    下标

      0

      1

      2

      3

      4

      5

      6

      7

      8

      9

    数据

      2

      4

      1

      5

      7

      6

      1

      9

      0

      2

    (1)由于第0个元素a[0] 等于2不为0,故交换a[0]与a[a[0]]即交换a[0]与a[2]得:

    下标

      0

      1

      2

      3

      4

      5

      6

      7

      8

      9

    数据

      1

      4

      2

      5

      7

      6

      1

      9

      0

      2

    (2)由于第0个元素a[0] 等于1不为0,故交换a[0]与a[a[0]]即交换a[0]与a[1]得:

    下标

      0

      1

      2

      3

      4

      5

      6

      7

      8

      9

    数据

      4

      1

      2

      5

      7

      6

      1

      9

      0

      2

    (3)由于第0个元素a[0] 等于4不为0,故交换a[0]与a[a[0]]即交换a[0]与a[4]得:

    下标

      0

      1

      2

      3

      4

      5

      6

      7

      8

      9

    数据

      7

      1

      2

      5

      4

      6

      1

      9

      0

      2

    (4)由于第0个元素a[0] 等于7不为0,故交换a[0]与a[a[0]]即交换a[0]与a[7]得:

    下标

      0

      1

      2

      3

      4

      5

      6

      7

      8

      9

    数据

      9

      1

      2

      5

      4

      6

      1

      7

      0

      2

     (5)由于第0个元素a[0] 等于9不为0,故交换a[0]与a[a[0]]即交换a[0]与a[9]得:

    下标

      0

      1

      2

      3

      4

      5

      6

      7

      8

      9

    数据

      2

      1

      2

      5

      4

      6

      1

      7

      0

      9

    (6)由于第0个元素a[0] 等于2不为0,故交换a[0]与a[a[0]]即交换a[0]与a[2],但a[2]也为2与a[0]相等,因此我们就找到了一个重复的元素——2。

    下标

      0

      1

      2

      3

      4

      5

      6

      7

      8

      9

    数据

      2

      1

      2

      5

      4

      6

      1

      7

      0

      9

    通过上面的具体分析,得到如下代码:

     1 //GOOGLE面试题
     2 //一个大小为n的数组,里面的数都属于范围[0, n-1],有不确定的重复元素,找到至少一个重复元素,要求O(1)空间和O(n)时间。
     3 #include <stdio.h>
     4 const int NO_REPEAT_FLAG = -1;
     5 void Swap(int &x, int &y)
     6 {
     7     int t = x;
     8     x = y;
     9     y = t;
    10 }
    11 //类似于基数排序,找出数组中第一个重复元素。
    12 int RadixSort(int a[], int n)
    13 {
    14     int i;
    15     for (i = 0; i < n; i++)
    16     {
    17         while (i != a[i])
    18         {
    19             if (a[i] == a[a[i]])
    20                 return a[i];
    21             Swap(a[i], a[a[i]]);
    22         }
    23     }
    24     return NO_REPEAT_FLAG;
    25 }
    26 void PrintfArray(int a[], int n)
    27 {
    28     for (int i = 0; i < n; i++)
    29         printf("%d ", a[i]);
    30     putchar('
    ');
    31 }
    32 int main()
    33 {
    34     const int MAXN = 10;
    35     int a[MAXN] = {2, 4, 1, 5, 7,  6, 1, 9, 0, 2};
    36     printf("数组为: 
    ");
    37     PrintfArray(a, MAXN);
    38     int nRepeatNumber = RadixSort(a, MAXN);
    39     if (nRepeatNumber != NO_REPEAT_FLAG)
    40         printf("该数组有重复元素,此元素为%d
    ", nRepeatNumber);
    41     else
    42         printf("该数组没有重复元素
    ");
    43     return 0;
    44 }

      整个程序的核心代码只有Radixsort()函数中短短5行左右,虽然有二重循环语句,但每个元素只会被访问一次,完成符合题目对时间复杂度的要求。

    存在的问题:

      改动了原数组的数据,那么有没有一种方法既能在满足题目时间、空间复杂度要求的前提下找到数组中的重复元素,又能不改变数组中的数据呢?

     我们可以通过下面的方式实现:

     1 int Repeat(int *a, int n)
     2 {
     3     for(int i = 0; i < n; i++)
     4     {
     5         if(a[i] > 0) //判断条件
     6         {
     7             if(a[ a[i] ] < 0)
     8             {
     9                 return a[i];//已经被标上负值了,有重复
    10             }
    11             else 
    12             {
    13                 a[ a[i] ]= -a[a[i]]; //记为负
    14             }
    15 
    16         }
    17         else // 此时|a[i]|代表的值已经出现过一次了
    18         {
    19             if(a[-a[i]] < 0)
    20             {
    21                 return -a[i];//有重复找到
    22             }
    23             else 
    24             {
    25                 a[ -a[i] ] = -a[ -a[i] ];
    26             }
    27         }
    28     }
    29     return -1;//数组中没有重复的数
    30 }

     下面我们通过一个具体的实例分析一下:——以取负为访问标志的方法  

      设int a[] = {1, 2, 1}

            第一步:由于a[0]等于1大于0,因此先判断下a[a[0]]即a[1]是否小于0,如果小于,说明这是第二次访问下标为1的元素,表明我们已经找到了重复元素。不是则将a[a[0]]取负,a[1]=-a[1]=-2。

            第二步:由于a[1]等于-2,因此先判断下a[-a[1]]取出a[2]是否小于0,如果小于,说明这是第二次访问下标为2的元素,表明我们已经找到了重复元素。不是则将a[-a[1]]取负,a[2]=-a[2]=-1。

            第三步:由于a[2]等于-1,因此判断下a[-a[2]]即a[1]是否小于0,由于a[1]在第一步中被取反过了,因此证明这是第二次访问下标为1的元素,直接返回-a[2]即可。

    但是问题又一次的出现了:

      当数组第0个元素为0且数据中只有0重复时是无法找出正确解的。只要用:

               const int MAXN = 5;

               int a[MAXN] = {0, 1, 2, 3, 0};

      这组数据来测试,就会发现该方法无法判断0是个重复出现的元素。

    解决方法:

      这个算法之所以用到了取负,是因此根据题目条件,数组中数据范围为[0,n-1],因此可以通过判断元素是否大于0来决定这个元素是未访问过的数据还是已访问过的数据。但也正因为对0的取负是无效操作决定了这个算法存在着缺陷。要改进一下也很简单——不用取负,而用加n。这样通过判断元素是否大于等于n就能决定这个元素是未访问过的数据还是已访问过的数据

     改进代码如下:

     1 //GOOGLE面试题
     2 //一个大小为n的数组,里面的数都属于范围[0, n-1],有不确定的重复元素,找到至少一个重复元素,要求O(1)空间和O(n)时间。
     3 #include <stdio.h>
     4 const int NO_REPEAT_FLAG = -1;
     5 int FindRepeatNumberInArray(int *a, int n)
     6 {
     7     for(int i = 0; i < n; i++)
     8     {
     9         int nRealIndex = a[i] >= n ? a[i] - n : a[i];
    10         if (a[nRealIndex] >= n) //这个位置上的值大于n说明已经是第二次访问这个位置了
    11             return nRealIndex;
    12         else
    13             a[nRealIndex] += n;
    14     }
    15     return NO_REPEAT_FLAG; //数组中没有重复的数
    16 }
    17 void PrintfArray(int a[], int n)
    18 {
    19     for (int i = 0; i < n; i++)
    20         printf("%d ", a[i]);
    21     putchar('
    ');
    22 }
    23 int main()
    24 {
    25     const int MAXN = 10;
    26     int a[MAXN] = {2, 4, 1, 5, 7,  6, 1, 9, 0, 2};
    27     printf("数组为: 
    ");
    28     PrintfArray(a, MAXN);
    29     int nRepeatNumber = FindRepeatNumberInArray(a, MAXN);
    30     if (nRepeatNumber != NO_REPEAT_FLAG)
    31         printf("该数组有重复元素,此元素为%d
    ", nRepeatNumber);
    32     else
    33         printf("该数组没有重复元素
    ");
    34     return 0;
    35 }

     

  • 相关阅读:
    Axure流程图
    Axure工作区间
    Axure简介
    Java知识导航总图
    SQL筛选出同一学科的时间最新的记录
    从高版本JDK换成低版本JDK报错Unsupported major.minor version 52.0
    java.lang.IllegalArgumentException: No converter found for return value of type
    httpClient创建对象、设置超时
    sql 查出一张表中重复的所有记录数据
    java List分批处理
  • 原文地址:https://www.cnblogs.com/xymqx/p/3716433.html
Copyright © 2011-2022 走看看