zoukankan      html  css  js  c++  java
  • 寻找两个有序数组中的中位数

    1.题目描述

    给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。
    
    请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为 O(log(m + n))。
    
    你可以假设 nums1 和 nums2 不会同时为空。
    
    示例 1:
    
    nums1 = [1, 3]
    nums2 = [2]
    
    则中位数是 2.0
    示例 2:
    
    nums1 = [1, 2]
    nums2 = [3, 4]
    
    则中位数是 (2 + 3)/2 = 2.5

    2.问题解析

    方法:递归法
    
    为了解决这个问题,我们需要理解“中位数的作用是什么”。在统计中,中位数被用来:
    
    将一个集合划分为两个长度相等的子集,其中一个子集中的元素总是大于另一个子集中的元素。
    如果理解了中位数的划分作用,我们就很接近答案了。
    
    首先,让我们在任一位置 ii 将 	ext{A}A 划分成两个部分:
    
              left_A             |        right_A
        A[0], A[1], ..., A[i-1]  |  A[i], A[i+1], ..., A[m-1]
    由于 	ext{A}A 中有 mm 个元素, 所以我们有 m+1m+1 种划分的方法(i = 0 sim mi=0∼m)。
    
    我们知道:
    
    	ext{len}(	ext{left\_A}) = i, 	ext{len}(	ext{right\_A}) = m - ilen(left_A)=i,len(right_A)=m−i.
    
    注意:当 i = 0i=0 时,	ext{left\_A}left_A 为空集, 而当 i = mi=m 时, 	ext{right\_A}right_A 为空集。
    采用同样的方式,我们在任一位置 jj 将 	ext{B}B 划分成两个部分:
    
    
              left_B             |        right_B
        B[0], B[1], ..., B[j-1]  |  B[j], B[j+1], ..., B[n-1]
    将 	ext{left\_A}left_A 和 	ext{left\_B}left_B 放入一个集合,并将 	ext{right\_A}right_A 和 	ext{right\_B}right_B 放入另一个集合。 再把这两个新的集合分别命名为 	ext{left\_part}left_part 和 	ext{right\_part}right_part:
    
              left_part          |        right_part
        A[0], A[1], ..., A[i-1]  |  A[i], A[i+1], ..., A[m-1]
        B[0], B[1], ..., B[j-1]  |  B[j], B[j+1], ..., B[n-1]
    如果我们可以确认:
    
    	ext{len}(	ext{left\_part}) = 	ext{len}(	ext{right\_part})len(left_part)=len(right_part)
    max(	ext{left\_part}) leq min(	ext{right\_part})max(left_part)≤min(right_part)
    那么,我们已经将 {	ext{A}, 	ext{B}}{A,B} 中的所有元素划分为相同长度的两个部分,且其中一部分中的元素总是大于另一部分中的元素。那么:
    
    	ext{median} = frac{	ext{max}(	ext{left}\_	ext{part}) + 	ext{min}(	ext{right}\_	ext{part})}{2} median= 
    2
    max(left_part)+min(right_part)
    ​    
     
    
    要确保这两个条件,我们只需要保证:
    
    i + j = m - i + n - ji+j=m−i+n−j(或:m - i + n - j + 1m−i+n−j+1) 如果 n geq mn≥m,只需要使 i = 0 sim m, j = frac{m + n + 1}{2} - i \i=0∼m,j= 
    2
    m+n+1
    ​    
     −i
    	ext{B}[j-1] leq 	ext{A}[i]B[j−1]≤A[i] 以及 	ext{A}[i-1] leq 	ext{B}[j]A[i−1]≤B[j]
    ps.1 为了简化分析,我假设 	ext{A}[i-1], 	ext{B}[j-1], 	ext{A}[i], 	ext{B}[j]A[i−1],B[j−1],A[i],B[j] 总是存在,哪怕出现 i=0i=0,i=mi=m,j=0j=0,或是 j=nj=n 这样的临界条件。 我将在最后讨论如何处理这些临界值。
    
    ps.2 为什么 n geq mn≥m?由于0 leq i leq m0≤i≤m 且 j = frac{m + n + 1}{2} - ij= 
    2
    m+n+1
    ​    
     −i,我必须确保 jj 不是负数。如果 n < mn<m,那么 jj 将可能是负数,而这会造成错误的答案。
    
    所以,我们需要做的是:
    
    在 [0,m][0,m] 中搜索并找到目标对象 ii,以使:
    
    qquad 	ext{B}[j-1] leq 	ext{A}[i] B[j−1]≤A[i] 且  	ext{A}[i-1] leq 	ext{B}[j],  A[i−1]≤B[j], 其中 j = frac{m + n + 1}{2} - ij= 
    2
    m+n+1
    ​    
     −i
    接着,我们可以按照以下步骤来进行二叉树搜索:
    
    设 	ext{imin} = 0imin=0,	ext{imax} = mimax=m, 然后开始在 [	ext{imin}, 	ext{imax}][imin,imax] 中进行搜索。
    
    令 i = frac{	ext{imin} + 	ext{imax}}{2}i= 
    2
    imin+imax
    ​    
     , j = frac{m + n + 1}{2} - ij= 
    2
    m+n+1
    ​    
     −i
    
    现在我们有 	ext{len}(	ext{left}\_	ext{part})=	ext{len}(	ext{right}\_	ext{part})len(left_part)=len(right_part)。 而且我们只会遇到三种情况:
    
    	ext{B}[j-1] leq 	ext{A}[i]B[j−1]≤A[i] 且 	ext{A}[i-1] leq 	ext{B}[j]A[i−1]≤B[j]:
    这意味着我们找到了目标对象 ii,所以可以停止搜索。
    
    	ext{B}[j-1] > 	ext{A}[i]B[j−1]>A[i]:
    这意味着 	ext{A}[i]A[i] 太小,我们必须调整 ii 以使 	ext{B}[j-1] leq 	ext{A}[i]B[j−1]≤A[i]。
    我们可以增大 ii 吗?
          是的,因为当 ii 被增大的时候,jj 就会被减小。
          因此 	ext{B}[j-1]B[j−1] 会减小,而 	ext{A}[i]A[i] 会增大,那么 	ext{B}[j-1] leq 	ext{A}[i]B[j−1]≤A[i] 就可能被满足。
    我们可以减小 ii 吗?
          不行,因为当 ii 被减小的时候,jj 就会被增大。
          因此 	ext{B}[j-1]B[j−1] 会增大,而 	ext{A}[i]A[i] 会减小,那么 	ext{B}[j-1] leq 	ext{A}[i]B[j−1]≤A[i] 就可能不满足。
    所以我们必须增大 ii。也就是说,我们必须将搜索范围调整为 [i+1, 	ext{imax}][i+1,imax]。 因此,设 	ext{imin} = i+1imin=i+1,并转到步骤 2。
    
    	ext{A}[i-1] > 	ext{B}[j]A[i−1]>B[j]: 这意味着 	ext{A}[i-1]A[i−1] 太大,我们必须减小 ii 以使 	ext{A}[i-1]leq 	ext{B}[j]A[i−1]≤B[j]。 也就是说,我们必须将搜索范围调整为 [	ext{imin}, i-1][imin,i−1]。
    因此,设 	ext{imax} = i-1imax=i−1,并转到步骤 2。
    
    当找到目标对象 ii 时,中位数为:
    
    max(	ext{A}[i-1], 	ext{B}[j-1]), max(A[i−1],B[j−1]), 当 m + nm+n 为奇数时
    frac{max(	ext{A}[i-1], 	ext{B}[j-1]) + min(	ext{A}[i], 	ext{B}[j])}{2}, 
    2
    max(A[i−1],B[j−1])+min(A[i],B[j])
    ​    
     , 当 m + nm+n 为偶数时
    现在,让我们来考虑这些临界值 i=0,i=m,j=0,j=ni=0,i=m,j=0,j=n,此时 	ext{A}[i-1],	ext{B}[j-1],	ext{A}[i],	ext{B}[j]A[i−1],B[j−1],A[i],B[j] 可能不存在。 其实这种情况比你想象的要容易得多。
    
    我们需要做的是确保 	ext{max}(	ext{left}\_	ext{part}) leq 	ext{min}(	ext{right}\_	ext{part})max(left_part)≤min(right_part)。 因此,如果 ii 和 jj 不是临界值(这意味着 	ext{A}[i-1], 	ext{B}[j-1],	ext{A}[i],	ext{B}[j]A[i−1],B[j−1],A[i],B[j] 全部存在), 那么我们必须同时检查 	ext{B}[j-1] leq 	ext{A}[i]B[j−1]≤A[i] 以及 	ext{A}[i-1] leq 	ext{B}[j]A[i−1]≤B[j] 是否成立。 但是如果 	ext{A}[i-1],	ext{B}[j-1],	ext{A}[i],	ext{B}[j]A[i−1],B[j−1],A[i],B[j] 中部分不存在,那么我们只需要检查这两个条件中的一个(或不需要检查)。 举个例子,如果 i = 0i=0,那么 	ext{A}[i-1]A[i−1] 不存在,我们就不需要检查 	ext{A}[i-1] leq 	ext{B}[j]A[i−1]≤B[j] 是否成立。 所以,我们需要做的是:
    
    在 [0,m][0,m] 中搜索并找到目标对象 ii,以使:
    
    (j = 0(j=0 or i = mi=m or 	ext{B}[j-1] leq 	ext{A}[i])B[j−1]≤A[i]) 或是 (i = 0(i=0 or j = nj=n or 	ext{A}[i-1] leq 	ext{B}[j]),A[i−1]≤B[j]), 其中 j = frac{m + n + 1}{2} - ij= 
    2
    m+n+1
    ​    
     −i
    在循环搜索中,我们只会遇到三种情况:
    
    (j = 0(j=0 or i = mi=m or 	ext{B}[j-1] leq 	ext{A}[i])B[j−1]≤A[i]) 或是
    (i = 0(i=0 or j = nj=n or 	ext{A}[i-1] leq 	ext{B}[j])A[i−1]≤B[j])
    这意味着 ii 是完美的,我们可以停止搜索。
    j > 0j>0 and i < mi<m and 	ext{B}[j - 1] > 	ext{A}[i]B[j−1]>A[i]
    这意味着 ii 太小,我们必须增大它。
    i > 0i>0 and j < nj<n and 	ext{A}[i - 1] > 	ext{B}[j]A[i−1]>B[j]
    这意味着 ii 太大,我们必须减小它。
    感谢 @Quentin.chen 指出: i < m implies j > 0i<m⟹j>0 以及 i > 0 implies j < ni>0⟹j<n 始终成立,这是因为:
    
    m leq n, i < m implies j = frac{m+n+1}{2} - i > frac{m+n+1}{2} - m geq frac{2m+1}{2} - m geq 0m≤n,i<m⟹j= 
    2
    m+n+1
    ​    
     −i> 
    2
    m+n+1
    ​    
     −m≥ 
    2
    2m+1
    ​    
     −m≥0
    
    m leq n, i > 0 implies j = frac{m+n+1}{2} - i < frac{m+n+1}{2} leq frac{2n+1}{2} leq nm≤n,i>0⟹j= 
    2
    m+n+1
    ​    
     −i< 
    2
    m+n+1
    ​    
     ≤ 
    2
    2n+1
    ​    
     ≤n
    所以,在情况 2 和 3中,我们不需要检查 j > 0j>0 或是 j < nj<n 是否成立。

    3. 代码实现

    class Solution:
        def findMedianSortedArrays(self, list1: List[int], list2: List[int]) -> float:
            m, n = len(list1), len(list2)
            #判断m, n的大小,保证m<n
            if m > n :
                m, n, list1, list2 = n, m, list2, list1
            if n == 0 :
                return ValueError
    
            #确定搜索边界,及最大值,最小值,以及中位值索引
            i_min, i_max, half_len, flag = 0, m, (m+n+1)//2, (m+n)%2
    
            while i_min <= i_max :
                i = (i_min+i_max)//2
                j = half_len - i
                if i < m and list1[i] < list2[j-1] :
                    i_min = i + 1            
                elif i > 0 and list1[i-1] > list2[j] :
                    i_max = i - 1
                else :
                    if i == 0 :
                        max_left = list2[j-1]
                    elif j == 0 :
                        max_left = list1[i-1]
                    else :
                        max_left = max(list1[i-1],list2[j-1])
    
                    if flag == 1:
                        return max_left
    
                    if i == m :
                        min_right = list2[j]
                    elif j == n :
                        min_right = list1[i]
                    else :
                        min_right = min(list1[i], list2[j])
    
                    return (max_left + min_right)/2 
  • 相关阅读:
    Debian常用操作
    debian-11.0.0-amd64
    CentOS-8.4.2105-x86_64
    第20章: 二进制方式部署K8S1.20高可用集群
    天狮集团云函数实践:自定义业务逻辑实现跨境电商全球直播
    峰值利用率80%+,视频云离线转码自研上云TKE实践
    腾讯首个CNCF沙箱开源项目
    斗鱼直播云原生实践之注册中心篇
    Superedge的新特性和未来之路
    腾讯云与 Grafana Labs 达成深度合作, 推出全新 Grafana 托管服务
  • 原文地址:https://www.cnblogs.com/guo-zhi-wei/p/10477615.html
Copyright © 2011-2022 走看看