zoukankan      html  css  js  c++  java
  • 字符串匹配算法

        KMP算法,以为一个简简单单的算法,看了我一天时间竟然没有看懂...果然图样图撕破了,三位大师提出的算法岂是我等屌丝能够迅速的理解的?不过话说看了这次算法才知自己的智力有多么的吃紧,还是要努力学习呀~智力不行就要加把劲了。(接下来字符串匹配算法均参考算法导论)

        字符串匹配,算法的模型不用提出大家都知道,仅仅是在文本T字符串中精确匹配模式串P,简简单单,轻轻松松的就知道这么一个模型,自然而然的能够想到一个最笨最实用的算法,朴素算法,朴素算法就是逐个比对,然后在文本串中下移一位在进行逐个比对,算法复杂度O((n-m+1)m),

        不过这种简单的方法的时间复杂度不是我们能够容忍的,提高一点有一个Rabin-Karp的算法,此算法的最坏时间复杂度没有提高,但是平均情况比较好,而且它这个思想可以借鉴,就是把匹配当做算术运算,后来取模比对,针对剩余的少部分精确比对~不过这不是重点,

        接下来的就是重量级的算法,KMP算法,它在预处理时间和匹配时间均达到了线性时间~O(m)的预处理时间,O(n)的匹配时间,非常完美的理论,不是么?网上很多资料都是关于next函数的,这里我参考算法导论里面的KMP算法,其思想虽然一致,但是不同于next函数的原理,其原理如下:(匹配过程)

     i  1 2 3 4 5 6

        a b a b a b a a b a b 

        a b a b a c b

              a b a b a c b  

            j 1 2 3 4 5 6 7  

      j 1 2 3 4 5 6

        这里比对过程是i和j的变化,如果i和j对应的地方相同,则同时+1,继续走下去,当出现T[i]和P[j]出现不同时,如上图中的P[6]!=T[6],此时KMP考虑的是i不进行回溯,而是考虑挪动j,使得j变化为一个更小的值,小于j,这样的变化效果是P整体向后移,但是此时不能够导致T[6]前面的i的匹配性质,及挪动后T[6]前面的元素和P对齐之后还是要相同的,所以这里j=5改为j=3,挪动后效果如红色标注的P所示,这是T[6]=P[4],两个串的表示i和j可以挪动下去;

     i  1 2 3 4 5 6 7 8 9 10 11

        a b a b a b a a b a b 

         

              a b a b a c b  

                    a b a b a c b

                          3

                          a b a b a c b

                          1

                             a b a b a c b

                          0

            j 1 2 3 4 5 6 7  

        但是接下来挪动的时候又产生了问题,T[8]!=P[6],这时候如同上面的方式,挪动j=5的位置,首先挪动至最近的保持T[8]前保持性质的部分,其实这里保持性质及P[5]的后缀的最长前缀...说到概念可能就不知道了,还是理解保持性质吧,挪动至红色后发现T[8]!=P[4],所以这里还要挪动j=3的位置,挪动成j=1,还是不能满足,所以还需要挪动,这时j=0了,及这时候T[8]和P[1]比较了,这里刚好一样,所以i可以继续向后挪动了;

        以上的移动均是参考了一个数字,该数字是保证某个位置的时候P和T能够保持性质,但是这个性质仅仅和P有关,及上面说的P的后缀的最长前缀,因为以上匹配过程用到了这个数据,所以接下来就是这个数据的计算的算法了,其实这个算法才是让我纠结的地方,纠结了好久,这里发现一个可以很容易理解的地方,分享给大家;

        上面算法的线性时间需要用到均摊分析的知识~可以仔细思考一下,线性的时间,

        这里图解一下计算后缀的最长前缀吧,这里这个记为PI[j],这里PI[j]可以根据PI[1],PI[2]...PI[j-1]计算得出,

        

        如图所示,PI[j-1]为标记的凸包的长度,这里如果P[lengh[PI[j-1]]+1]=P[j],这里PI[j]及为PI[j-1]长度加1,如果P[lengh[PI[j-1]]+1]!=P[j],则这个需要在更加前面找,这里及递归的找,画图如下,

        

        及黑色线标注的位置是否与P[j]相同选择是否继续递归,黑色标注的位置的选择为PI[ PI[j-1] ] + 1,PI[j-1]的位置为红色的那段,因为不可能为红色,所以要缩小一下,这里示意为绿色的圈,绿色的圈挪动到前边的红色部位,所以绿色的圈在红色的部位找到前缀为黑色的部分,所以PI[ PI[j-1] ]是这样得出的,这样递归下去就能够得出PI[j]的值了,这样就可以根据计算得出的PI[j]值运用匹配算法了,

        不知道上面的解释是否能够解释的清楚,一个递归的过程,分析算法复杂度也是一个均摊分析的方法,同样是线性的,

        模式串的预处理的伪代码如下:

    COMPUTE-PREFIX-FUNCTION(P)
        m=length(P) 
        PI[1]=0               //初始化
        k=0                    //初始化
        for q=2 to m
            while k>0 and P[k+1]!=P[q] //结束条件至0或者相等
                k=PI[k]                             //递归的过程
            if P[k+1]=P[q]      //               增加的过程
                k=k+1
            PI[q]=k                         //赋值为k,下一个计算已k为起点向下递归
        return PI
    

      KMP匹配过程执行的伪代码如下:

    KMP-MATCH(T,P)
        n = length[T]
        m = length[P]
        PI=COMPUTE-PREFIX-FUNCTION(P)
        j=0
        for i=1 to n
            while j>0 and P[j+1]!=T[i]  //如果不等,挪动P,根据计算好的PI
                j=PI[j]
            if P[j+1]=T[i] //如果相等,则向后继续匹配
                j=j+1
            if j=m            //匹配m个后则成功
                printf(匹配成功)
                j = PI[j]
           
    

      以上是伪代码描述,上面说描述的参考算法导论的KMP思想,网上还有一种next方式的,有空研读一下比较差别;

         除了上述算法还有一些优秀的字符串匹配算法,基于自动机的,BM算法等等,

     如果想要了解一下有限自动机方法可以继续看下去,这种方法可KMP算法可以看做等价,

     有限自动机字符串匹配算法简单介绍如下:

    给定模式P[1...m],其对应的字符串匹配自动机定义如下:

    1、状态集Q为{0,1,...,m},初始状态q0为0状态,状态m是唯一的接受状态。

    2、对于任意的状态q和字符a,变迁函数δ由如下等式定义:δ(q,a)=σ(Pq a)

    这里的解释一下σ(x)的定义,其为相应P的后缀函数。σ(x)为x的后缀 P的最长前缀的长度:σ(x)=max{k:Pk是x的后缀}

    简单的举例如下:

    i         1 2 3 4 5 6 7 8 9 10 11 

    T[i]    a  b a b a b a c  a  b   a 

    状态   1 2  3 4 5  4 5 6  7 2  3  

    上述是匹配的过程,下面是转移表:

          a    b     c              P

    0    1     0     0            a    

    1    1     2     0            b

    2    3     0     0            a

    3    1     4     0            b

    4    5     0     0            a

    5    1     4     6            c

    6    7     0     0            a

    7    1     2     0 

    自动机的过程与KMP可以转换,只不过自动机考虑了T[i]不匹配过程中的具体字母表的转移,然后KMP只是不匹配的情况下先进行挪动,挪动后发现不匹配之后再进行挪动?直至挪动为0的时候,抑或是一直不匹配i++,此时忽略j;自动机只是具体考虑了此时如果T[i]如果不等于P[j],并且此时T[i]的具体取值已经指定,在此值指定的情况下应该怎样的转移~

    a  b  a  b  a  c  a

    0  0  1  2  3  0  1

    上面是KMP计算出的模式函数,首先a值是T[i]和P[1]如果相等,则j++,向后移动,但是如果不匹配,此时如同自动机转移表第一行,为b or c,此时就应该i,j同时++了,此时KMP如果发现T[i]和P[1]不相等,则上面算法i++,j取值仍为0,等价于i和j同时++了;

    这时考虑b,如果a匹配了,P[2]和T[i]匹配,此时j++=2了,这时候移动两位了,自动机表现匹配两个字母,所以为状态2,但是如果不相等呢?此时考虑了b,必定T[i]和P[1]已经匹配了,KMP中不匹配则考虑移动P,根据值j重新改为0,及向右移动两位,然后自动机此时读入不等的可能为a或者c,如果为a,则KMP移动两位之后匹配上了一位,j++=1,如果为c,移动之后仍然不能匹配,所以i和j同时仍然移动,KMP表现i++,j重新赋值为0;

    ...

    这次考虑一个中间的值,比如c的位置,如果知道T[i]值为多少,则可以知道具体的移动多少,然而KMP中是根据P计算的模式值,所以这里不知道T[i]的值,它有可能是最坏的值,所以这里取得的是最坏的值;所以这里计算自动机转移函数可以考虑KMP中已经计算好的结果,这样提升时间复杂度,

    ...

    所以自动机匹配和KMP算法有一定的等价性,上面的描述比较凌乱,希望能够对你有所启发,

  • 相关阅读:
    Ubuntu-14.04-QT开发环境搭建-(一)
    解决使用Qt creator时出现Cannot overwrite file ..Permission denied
    Github上关于大数据的开源项目、论文等合集
    Qt5.4中遇到找不到头文件<QApplication>等。
    qt的下载地址
    完整的qt安装教程
    Ubuntu14.04安装Matlab2014a
    Ubuntu14.04安装搜狗输入法的一点小问题
    把OnDraw和OnPaint弄清楚(转贴)
    Ubuntu上挂载源代码,docker容器中共享这个原代码,实现自动部署
  • 原文地址:https://www.cnblogs.com/weixliu/p/2817331.html
Copyright © 2011-2022 走看看