zoukankan      html  css  js  c++  java
  • Leetcode之通配符匹配

    问题描述

    给定一个字符串 (s) 和一个字符模式 (p) ,实现一个支持 '?' 和 '' 的通配符匹配。
    '?' 可以匹配任何单个字符。
    '
    ' 可以匹配任意字符串(包括空字符串)。
    两个字符串完全匹配才算匹配成功。
    说明:
    s 可能为空,且只包含从 a-z 的小写字母。
    p 可能为空,且只包含从 a-z 的小写字母,以及字符 ? 和 *。

    示例 1:

    输入:
    s = "aa"
    p = "a"
    输出: false
    解释: "a" 无法匹配 "aa" 整个字符串。

    示例 2:

    输入:
    s = "aa"
    p = ""
    输出: true
    解释: '
    ' 可以匹配任意字符串。

    示例 3:

    输入:
    s = "cb"
    p = "?a"
    输出: false
    解释: '?' 可以匹配 'c', 但第二个 'a' 无法匹配 'b'。

    示例 4:

    输入:
    s = "adceb"
    p = "ab"
    输出: true
    解释: 第一个 '' 可以匹配空字符串, 第二个 '' 可以匹配字符串 "dce".

    示例 5:

    输入:
    s = "acdcb"
    p = "a*c?b"
    输出: false

    问题解法

    没A出来。看了官方题解。我的思路是这样的,对s中的每一个字母去匹配。与p中的字母和'?'的匹配都是一定的。难搞的只有''。因此当s[i]要匹配到p[j],p[j]==''时,我对p[j+1]进行了讨论。可以为空,为'?',为'',为字母,然后进行不同的处理。在匹配''时,获得最接近它下一个字母的在s中位置index,然后从这个位置去判断(si,index)能不能够匹配的上进行回溯。在法四中是采用了双指针的做法记录回溯。我的在过测试用例时有超过时间限制的。

    方法一 动态规划(处理两个字符串关系或者匹配问题常用动态规划)

    在给定的模式 p 中,只会有三种类型的字符出现:
    小写字母 a−z,可以匹配对应的一个小写字母;
    问号 ?,可以匹配任意一个小写字母;
    星号 *,可以匹配任意字符串,可以为空,也就是匹配零或任意多个小写字母。

    其中「小写字母」和「问号」的匹配是确定的,而「星号」的匹配是不确定的,因此我们需要枚举所有的匹配情况。为了减少重复枚举,我们可以使用动态规划来解决本题。
    我们用 dp[i][j] 表示字符串 s 的前i 个字符和模式 p 的前 j 个字符是否能匹配。在进行状态转移时,我们可以考虑模式 p的第 j 个字符 p[j],与之对应的是字符串 s中的第 i 个字符 s[i]​:

    • 如果 p[j] 是小写字母,那么 s[i] 必须也为相同的小写字母,状态转移方程为:
      dp[i][j]=(s[i] 与 p[j]相同)∧dp[i−1][j−1]
      其中 ∧表示逻辑与运算。也就是说,dp[i][j] 为真,当且仅当 dp[i−1][j−1] 为真,并且 s[i] 与 p[j] 相同。

    • 如果 p[j]是问号,那么对 s[i]没有任何要求,状态转移方程为:
      dp[i][j]=dp[i−1][j−1]

    • 如果 p[j]是星号,那么同样对 s[i]没有任何要求,但是星号可以匹配零或任意多个小写字母,因此状态转移方程分为两种情况,即使用或不使用这个星号:
      dp[i][j]=dp[i][j−1]∨dp[i−1][j]
      其中 ∨表示逻辑或运算。如果我们不使用这个星号,那么就会从 dp[i][j−1]转移而来;如果我们使用这个星号,那么就会从 dp[i−1][j] 转移而来。

    只有确定了边界条件,才能进行动态规划。在上述的状态转移方程中,由于 dp[i][j] 对应着 s的前i个字符和模式p的前j个字符,因此所有的 dp[0][j]和dp[i][0]都是边界条件,因为它们涉及到空字符串或者空模式的情况,这是我们在状态转移方程中没有考虑到的:
    dp[0][0]==True,即当字符串 s 和模式 p 均为空时,匹配成功;
    dp[i][0]=False,即空模式无法匹配非空字符串;
    dp[0][j]需要分情况讨论:因为星号才能匹配空字符串,所以只有当模式 p 的前 j 个字符均为星号时,dp[0][j]才为真。

    我们可以发现,dp[i][0]的值恒为假,dp[0][j]在 j 大于模式p的开头出现的星号字符个数之后,值也恒为假,而 dp[i][j]的默认值(其它情况)也为假,因此在对动态规划的数组初始化时,我们就可以将所有的状态初始化为 False减少状态转移的代码编写难度。
    最终的答案即为 dp[m][n],其中 m和 n分别是字符串 s 和模式 p 的长度。需要注意的是,由于大部分语言中字符串的下标从 0开始,因此 s[i] 和 p[j] 分别对应着 s[i−1]和 p[j−1]。

    class Solution {
    public boolean isMatch(String s, String p) {
    		boolean[][] dp=new boolean[s.length()+1][p.length()+1];//dp[i][j]表示s的前i个字符和p的前j个字符的匹配情况
    		//边界条件
            dp[0][0]=true;
    		for(int j=1;j<p.length()+1;j++) {
    			if(p.charAt(j-1)!='*')
    				break;
    			dp[0][j]=true;
    		}
    		for(int i=1;i<=s.length();i++) {
    			for(int j=1;j<=p.length();j++) {
    				if(s.charAt(i-1)==p.charAt(j-1)||p.charAt(j-1)=='?') {
    					dp[i][j]=dp[i-1][j-1];
    				}else if(p.charAt(j-1)=='*') {
    					dp[i][j]=dp[i-1][j]||dp[i][j-1];//这里比较难理解。后面表示没有用这个'*'匹配任何字符。前面表示第i个s字符和这个'*'匹配成功但需要与i-1与这个'*'的匹配做交集
    				}
    			}
    		}
    		return dp[s.length()][p.length()];
        }
    }
    

    此外,在状态转移方程中,由于 dp[i][j] 只会从 dp[i][..] 以及 dp[i−1][..]转移而来,因此我们可以使用滚动数组对空间进行优化,即用两个长度为 n+1 的一维数组代替整个二维数组进行状态转移,空间复杂度为 O(n)。

    方法二 贪心

    方法一的瓶颈在于对星号的处理方式:使用动态规划枚举所有的情况。由于星号是「万能」的匹配字符,连续的多个星号和单个星号实际上是等价的,那么不连续的多个星号呢?
    我们以 p=∗ abcd ∗为例p可以匹配所有包含子串abcd的字符串,也就是说,我们只需要暴力地枚举字符串s中的每个位置作为起始位置,并判断对应的子串是否为 abcd 即可。这种暴力方法的时间复杂度为 O(mn)与动态规划一致,但不需要额外的空间。
    如果 p=∗ abcd∗efgh∗i呢?显然,p可以匹配所有依次出现子串 abcd的字符串。此时,对于任意一个字符串 s,我们首先暴力找到最早出现的 abcd,随后从下一个位置开始暴力找到最早出现的 efgh,最后找出i,就可以判断 s 是否可以与p匹配。这样「贪心地」找到最早出现的子串是比较直观的,因为如果s中多次出现了某个子串,那么我们选择最早出现的位置,可以使得后续子串能被找到的机会更大。
    因此,如果模式p的形式为∗u1∗u2∗u3 ∗⋯∗ux
    即字符串(可以为空)和星号交替出现,并且首尾字符均为星号,那么我们就可以设计出下面这个基于贪心的暴力匹配算法。算法的本质是:如果在字符串s中首先找到u1,再找到 u2,u3,⋯ ,ux那么 s 就可以与模式 p匹配,伪代码如下:

    / 我们用 sIndex 和 pIndex 表示当前遍历到 s 和 p 的位置
    // 此时我们正在 s 中寻找某个 u_i
    // 其在 s 和 p 中的起始位置为 sRecord 和 pRecord
    
    // sIndex 和 sRecord 的初始值为 0
    // 即我们从字符串 s 的首位开始匹配
    sIndex = sRecord = 0
    
    // pIndex 和 pRecord 的初始值为 1
    // 这是因为模式 p 的首位是星号,那么 u_1 的起始位置为 1
    pIndex = pRecord = 1
    
    while sIndex < s.length and pIndex < p.length do
        if p[pIndex] == '*' then
            // 如果遇到星号,说明找到了 u_i,开始寻找 u_i+1
            pIndex += 1
            // 记录下起始位置
            sRecord = sIndex
            pRecord = pIndex
        else if match(s[sIndex], p[pIndex]) then
            // 如果两个字符可以匹配,就继续寻找 u_i 的下一个字符
            sIndex += 1
            pIndex += 1
        else if sRecord + 1 < s.length then
            // 如果两个字符不匹配,那么需要重新寻找 u_i
            // 枚举下一个 s 中的起始位置
            sRecord += 1
            sIndex = sRecord
            pIndex = pRecord
        else
            // 如果不匹配并且下一个起始位置不存在,那么匹配失败
            return False
        end if
    end while
    
    // 由于 p 的最后一个字符是星号,那么 s 未匹配完,那么没有关系
    // 但如果 p 没有匹配完,那么 p 剩余的字符必须都是星号
    return all(p[pIndex] ~ p[p.length - 1] == '*')
    

    然而模式 p 并不一定是 ∗ u1∗u2∗u3 ∗⋯∗ux 的形式:
    模式 p的开头字符不是星号;
    模式 p的结尾字符不是星号。

    第二种情况处理起来并不复杂。如果模式 p 的结尾字符不是星号,那么就必须与字符串 s的结尾字符匹配。那么我们不断地匹配 s 和 p 的结尾字符,直到p为空或者p的结尾字符是星号为止。在这个过程中,如果匹配失败,或者最后p为空但 s不为空,那么需要返回 False。
    第一种情况的处理也很类似,我们可以不断地匹配 s 和 p 的开头字符。下面的代码中给出了另一种处理方法,即修改 sRecord 和 tRecord 的初始值为 −1,表示模式 p 的开头字符不是星号,并且在匹配失败时进行判断,如果它们的值仍然为 −1,说明没有「反悔」重新进行匹配的机会。

    class Solution {
        public boolean isMatch(String s, String p) {
            int sRight = s.length(), pRight = p.length();
            while (sRight > 0 && pRight > 0 && p.charAt(pRight - 1) != '*') {
                if (charMatch(s.charAt(sRight - 1), p.charAt(pRight - 1))) {
                    --sRight;
                    --pRight;
                } else {
                    return false;
                }
            }
    
            if (pRight == 0) {
                return sRight == 0;
            }
    
            int sIndex = 0, pIndex = 0;
            int sRecord = -1, pRecord = -1;
            
            while (sIndex < sRight && pIndex < pRight) {
                if (p.charAt(pIndex) == '*') {
                    ++pIndex;
                    sRecord = sIndex;
                    pRecord = pIndex;
                } else if (charMatch(s.charAt(sIndex), p.charAt(pIndex))) {
                    ++sIndex;
                    ++pIndex;
                } else if (sRecord != -1 && sRecord + 1 < sRight) {
                    ++sRecord;
                    sIndex = sRecord;
                    pIndex = pRecord;
                } else {
                    return false;
                }
            }
    
            return allStars(p, pIndex, pRight);
        }
    
        public boolean allStars(String str, int left, int right) {
            for (int i = left; i < right; ++i) {
                if (str.charAt(i) != '*') {
                    return false;
                }
            }
            return true;
        }
    
        public boolean charMatch(char u, char v) {
            return u == v || v == '?';
        }
    }
    

    方法三 AC自动机

    方法四 双指针加贪心(类似我的想法,只不过他写出来了)

    public static boolean isMatch(String s, String p) {
    		int i=0,j=0,istart=-1,jstart=-1;
    		while(i<s.length()) {
    			if(j<p.length()&&(s.charAt(i)==p.charAt(j)||p.charAt(j)=='?')) {
    				i++;j++;
    			}else if(j<p.length()&&p.charAt(j)=='*') {
    				istart=i;//记录当前已经匹配成功的位置
    				jstart=j++;//记录这个'*'的位置并且使j后移一位
    			}else if(istart>=0){//匹配长度不够(不然不会进入到这个分支)
    				i=++istart;//istart本来记录的是可以匹配到的地方,++istart后为下一次更新i做准备(因为当istart不变时已经试探过了),i用来试探
    				j=jstart+1;//用“*”后面的字符来匹配
    			}else return false;
    		}
    		while(j<p.length()&&p.charAt(j)=='*') {//去除多余'*'
    			j++;
    		}
    		return j==p.length();
        }
    
  • 相关阅读:
    二项式定理与组合恒等式
    「CEOI2020」象棋世界 题解
    矩阵 题解
    研一总结
    你明白transform中的skew属性是何如变换的吗?
    pip安装包
    Yaml中特殊符号"| > |+ |-"的作用
    使用ROOT用户运行Jenkins
    检查MySQL主从复制运行状态
    powerdesigner 怎么逆向生成 pdm文件
  • 原文地址:https://www.cnblogs.com/code-fun/p/13794855.html
Copyright © 2011-2022 走看看