zoukankan      html  css  js  c++  java
  • 算法随笔 --- Manacher算法

    今天做leetcode看到了用O(n)时间复杂度来解决最大回文字符串的算法,马拉车算法,就搜索了一下,自己理解了之后把这个算法写在博客上。

    Manacher算法

    Manacher算法的应用范围狭窄,但是它的思想和拓展kmp算法有很多共通点。Manacher算法是查找一个字符串的最长回文子串的线性算法。

    计算字符串的最长回文字串最简单的算法就是枚举该字符串的每一个子串,并且判断这个子串是否为回文串,这个算法的时间复杂度为O(n3)的,显然无法令人满意,稍微优化的一个算法是枚举回文串的中点,这里要分为两种情况,一种是回文串长度是奇数的情况,另一种是回文串长度是偶数的情况,枚举中点再判断是否是回文串,这样能把算法的时间复杂度降为O(n2),但是当n比较大的时候仍然无法令人满意,Manacher算法可以在线性时间复杂度内求出一个字符串的最长回文字串,达到了理论上的下界。

    1.Manacher算法原理与实现

    下面介绍Manacher算法的原理与步骤。

    首先,Manacher算法提供了一种巧妙地办法,将长度为奇数的回文串和长度为偶数的回文串一起考虑,具体做法是,在原字符串的每个相邻两个字符中间插入一个分隔符,同时在首尾也要添加一个分隔符,分隔符的要求是不在原串中出现,一般情况下可以用#号。下面举一个例子:

    img

    (1)Len数组简介与性质

    Manacher算法用一个辅助数组Len[i]表示以字符T[i]为中心的最长回文字串的最右字符到T[i]的长度,比如以T[i]为中心的最长回文字串是T[l,r],那么Len[i]=r-i+1。

    对于上面的例子,可以得出Len[i]数组为:

    img

    Len数组有一个性质,那就是Len[i]-1就是该回文子串在原字符串S中的长度,至于证明,首先在转换得到的字符串T中,所有的回文字串的长度都为奇数,那么对于以T[i]为中心的最长回文字串,其长度就为2*Len[i]-1,经过观察可知,T中所有的回文子串,其中分隔符的数量一定比其他字符的数量多1,也就是有Len[i]个分隔符,剩下Len[i]-1个字符来自原字符串,所以该回文串在原字符串中的长度就为Len[i]-1。

    有了这个性质,那么原问题就转化为求所有的Len[i]。下面介绍如何在线性时间复杂度内求出所有的Len。

    (2)Len数组的计算

    首先从左往右依次计算Len[i],当计算Len[i]时,Lenj已经计算完毕。设P为之前计算中最长回文子串的右端点的最大值,并且设取得这个最大值的位置为po,分两种情况:

    第一种情况:i<=P

    那么找到i相对于po的对称位置,设为j,那么如果Len[j]<P-i,如下图:

    img

    那么说明以j为中心的回文串一定在以po为中心的回文串的内部,且j和i关于位置po对称,由回文串的定义可知,一个回文串反过来还是一个回文串,所以以i为中心的回文串的长度至少和以j为中心的回文串一样,即Len[i]>=Len[j]。因为Len[j]<P-i,所以说i+Len[j]<P。由对称性可知Len[i]=Len[j]。

    如果Len[j]>=P-i,由对称性,说明以i为中心的回文串可能会延伸到P之外,而大于P的部分我们还没有进行匹配,所以要从P+1位置开始一个一个进行匹配,直到发生失配,从而更新P和对应的po以及Len[i]。

    img

    第二种情况: i>P

    如果i比P还要大,说明对于中点为i的回文串还一点都没有匹配,这个时候,就只能老老实实地一个一个匹配了,匹配完成后要更新P的位置和对应的po以及Len[i]。

    img

    2.时间复杂度分析

    Manacher算法的时间复杂度分析和Z算法类似,因为算法只有遇到还没有匹配的位置时才进行匹配,已经匹配过的位置不再进行匹配,所以对于T字符串中的每一个位置,只进行一次匹配,所以Manacher算法的总体时间复杂度为O(n),其中n为T字符串的长度,由于T的长度事实上是S的两倍,所以时间复杂度依然是线性的。

    下面是算法的实现,注意,为了避免更新P的时候导致越界,我们在字符串T的前增加一个特殊字符,比如说‘$’,所以算法中字符串是从1开始的。

    Manacher算法的java实现:

    public static char[] manacherString(String str){
       char [] charArr = str.toCharArray();
       char [] res = new char [str.length*2+1];
       int index = 0;
       for(int i=0; i!=res.length; i++){
       	res[i] = (i & 1) == 0? '#' : charArr[index++];
       } 
       return res;
    }
    public static int maxLcpsLength(String str){
       if(str==null || str.length()==0){
       	return 0;
       }
       char [] charArr = manacherString(str);
       int [] pArr = new int [charArr.length];
       int index = -1;//回文中心
       int pR = -1;//回文右边界
       int max = Integer_MIN_VALUE;
       for(int i=0; i != charrArr.length; i++){
       	pArr[i] = i<pR? Math.min(pArr[2*index-i], pR-i) : 1;
       	while(i + pArr[i] < charArr.length&&i - pArr[i]){
       		if(charArr[i+pArr[i]] == charArr[i-pArr[i]]){
       			pArr[i]++;
       		}else{
       			break;
       		}
       	}
       	//更新回文右边界以及回文中心;
       	if(i + pArr[i] > pR){
       		pR = i + pArr;
       		index = i;
       	}
       	max = Math.max(max , pArr[i]); 
       }
       return max - 1;
    }
    
  • 相关阅读:
    UVa 1349 (二分图最小权完美匹配) Optimal Bus Route Design
    UVa 1658 (拆点法 最小费用流) Admiral
    UVa 11082 (网络流建模) Matrix Decompressing
    UVa 753 (二分图最大匹配) A Plug for UNIX
    UVa 1451 (数形结合 单调栈) Average
    UVa 1471 (LIS变形) Defense Lines
    UVa 11572 (滑动窗口) Unique Snowflakes
    UVa 1606 (极角排序) Amphiphilic Carbon Molecules
    UVa 11054 Wine trading in Gergovia
    UVa 140 (枚举排列) Bandwidth
  • 原文地址:https://www.cnblogs.com/xjtu-lyh/p/12684553.html
Copyright © 2011-2022 走看看