zoukankan      html  css  js  c++  java
  • 时空权衡之输入增强 ----字符串匹配算法Horspool算法和Boyer-Moore算法

          在算法设计的时空权衡设计技术中,对问题的部分或者全部输入做预处理,对获得的额外信息进行存储,以加速后面问题的求解的思想,我们称作输入增强

          其中字符串匹配算法Horspool算法和Boyer-Moore算法就是输入增强的例子。

          首先了解一下字符串匹配的概念。我们把在一个较长的n个字符的串中,寻找一个给定的m个字符的串的问题,称为字符串匹配问题。较长的串称为text,而需要寻找的串称为pattern

          字符串匹配问题的蛮力算法很好理解:我们把patterntext第一个字符对齐,从左往右比较patterntext中的每一个字符,一旦匹配不成功,就把pattern往右移动一格,重新比较。最坏的情况需要比对n-m+1次(pattern不存在text中或者存在与text末尾),每次要进行m次比较,所以蛮力算法的最差性能是O(mn)。

          本次介绍的两个算法,都是想办法,在匹配出现不成功时,尽可能地移动更多的位置,从而实现算法性能的提升。

    一.Horspool算法

          与KMP算法相反,这两个算法在比较pattern的时候,都是从右往左比较的。以下举一个例子。考虑我们要在某个text中查找“APPLE”这一pattern。

     

          从E开始,我们从右向左对比,如果pattern中所有的字符都匹配成功,则找到了一个子串。这时可以停止算法或者继续往右寻找。如果其中有字符匹配失败,我们需要把pattern往右移动。这里假设c是text中,对齐pattern最后一个字符的元素,则存在4种不同的情况。

          情况1,pattern中不包含c(这里的c是B)。直接移动pattern长的格数。

     

          情况2,pattern中包含c(这里的c是P),但c不是pattern中最后一个字符。则移动时应该把pattern中最右的c与text中的c对齐。

     

    情况3,c正是pattern中最后一个字符(这里的c是E)。但剩余的m-1个字符中不包含c。也是直接移动pattern长的格数。

     

     

          情况4,c正是pattern中最后一个字符(这里的c是E)。但剩余的m-1和字符中也包含c。则类似情况2,把pattern中前m-1个字符中的c和text中的c对齐。

     

          为了加速算法,我们利用额外的空间来存储一个表。这个表中,对于text中的每一个字符,都对应一个值。这个值就是当pattern匹配不成功,且遇到的c是这个字符时,应当移动的距离。

          对于每一个字符c,我们用以下公式计算距离:

     

          例如,对于APPLE这字符串来说,除了A、P、L的单元格分别为4、2、1之外,表中所有得单元格都等于5(m=5)。这里E是5,而不是0。

     

          填表算法很简单,把所有单元格初始化为m,然后从左往右扫描pattern,对于pattern中第j个字符(0 ≤ j ≤ m-2),将它在表中的单元格改写为m-1-j。

          加上一个完整的例子:

     

    二.Boyer-Moore算法

          由于时间问题,下次继续更新。

  • 相关阅读:
    [loss]Triphard loss优雅的写法
    [Pytorch]Pytorch中tensor常用语法
    [pytorch]pytorch loss function 总结
    [Pytorch]Pytorch的tensor变量类型转换
    [Pytorch]Pytorch中图像的基本操作(TenCrop)
    caffe深度学习网络(.prototxt)在线可视化工具:Netscope Editor
    samba网络共享
    openwrt开发笔记三:uci移植及API调用
    openwrt开发笔记二:树莓派刷openwrt
    git跟踪忽略规则文件.gitignore
  • 原文地址:https://www.cnblogs.com/banyu/p/4960259.html
Copyright © 2011-2022 走看看