zoukankan      html  css  js  c++  java
  • 编辑距离

    #include <iostream>
    #include <vector>
    #include <string>
    #include <algorithm>
    
    using namespace std;
    
    int edit(string str1, string str2)
    {
        int res;
    
        int n1 = str1.size();
        int n2 = str2.size();
        
        // 使用vector初始化二维数组方法
        vector<vector<int>> tmp(n1 + 1, vector<int>(n2 + 1));
    
        // if i == 0 且 j == 0,edit(i, j) = 0
        // if i == 0 且 j > 0,edit(i, j) = j
        // if i > 0 且j == 0,edit(i, j) = i
        for (int i = 0; i <= n1; i++){
            tmp[i][0] = i;
        }
        for (int i = 0; i <= n2; i++){
            tmp[0][i] = i;
        }
    
        for (int i = 1; i <= n1; i++){
            for (int j = 1; j <= n2; j++){
                // edit(i, j) == min{ edit(i - 1, j) + 1, edit(i, j - 1) + 1, edit(i - 1, j - 1) + E(i, j) }
                // str1[i-1] 对应第i个字符,str2[j-1] 对应第j个字符,但是距离记录数组的编号是i不是i-1
                // E(i, j) = (str1[i - 1] == str2[j - 1] ? 0 : 1)
                tmp[i][j] = min(min(tmp[i - 1][j] + 1, tmp[i][j - 1] + 1), tmp[i - 1][j - 1] + (str1[i - 1] == str2[j - 1] ? 0 : 1));
            }
        }
    
        cout << "**************************" << endl;
        for (int i = 0; i <= n1; i++){
            for (int j = 0; j <= n2; j++){
                cout << tmp[i][j] << " ";
            }
            cout << endl;
        }
        cout << "**************************" << endl;
    
        return tmp[n1][n2];
    }
    
    int main()
    {
        string str1 = "sailn";
        string str2 = "failing";
    
        cout << "dis is " << edit(str1, str2) << endl;
    
        return 0;
    }

    详细解释:

    --------------------------------------------------------------------------------------------------------------------------

    编辑距离

    关于两个字符串s1,s2的差别,可以通过计算他们的最小编辑距离来决定。

    所谓的编辑距离: 让s1和s2变成相同字符串需要下面操作的最小次数。

    1. 把某个字符ch1变成ch2

    2. 删除某个字符

    3. 插入某个字符

    例如 s1 = “12433” 和s2=”1233”;

    则可以通过在s2中间插入4得到12433与s1一致。

    即 d(s1,s2) = 1 (进行了一次插入操作)

    --------------------------------------------------------------------------------------------------------------------------

    编辑距离的性质

    计算两个字符串s1+ch1, s2+ch2的编辑距离有这样的性质:

    1. d(s1,””) = d(“”,s1) = |s1| d(“ch1”,”ch2”) = ch1 == ch2 ? 0 : 1;

    2. d(s1+ch1,s2+ch2) = min( d(s1,s2)+ ch1==ch2 ? 0 : 1 ,d(s1+ch1,s2),d(s1,s2+ch2) );

    第一个性质是显然的。

    第二个性质: 由于我们定义的三个操作来作为编辑距离的一种衡量方法。

    于是对ch1,ch2可能的操作只有

    1. 把ch1变成ch2

    2. s1+ch1后删除ch1 d = (1+d(s1,s2+ch2))

    3. s1+ch1后插入ch2 d = (1 + d(s1+ch1,s2))

    对于2和3的操作可以等价于:

    _2. s2+ch2后添加ch1 d=(1+d(s1,s2+ch2))

    _3. s2+ch2后删除ch2 d=(1+d(s1+ch1,s2))

    因此可以得到计算编辑距离的性质2。

    --------------------------------------------------------------------------------------------------------------------------

    复杂度分析

    从上面性质2可以看出计算过程呈现这样的一种结构(假设各个层用当前计算的串长度标记,并假设两个串长度都为 n )

    可以看到,该问题的复杂度为指数级别 3 的 n 次方,对于较长的串,时间上是无法让人忍受的。

    分析: 在上面的结构中,我们发现多次出现了 (n-1,n-1), (n-1,n-2)……。换句话说该结构具有重叠子问题。再加上前面性质2所具有的最优子结构。符合动态规划算法基本要素。因此可以使用动态规划算法把复杂度降低到多项式级别。
    --------------------------------------------------------------------------------------------------------------------------

    动态规划求解

    首先为了避免重复计算子问题,添加两个辅助数组。

    一. 保存子问题结果。

    M[ |s1| ,|s2| ] , 其中M[ i , j ] 表示子串s1(0->i) 与 s2(0->j) 的编辑距离

    二. 保存字符之间的编辑距离.

    E[ |s1|, |s2| ] , 其中 E[ i, j ] = s[i] = s[j] ? 0 : 1

    三. 新的计算表达式

    根据性质1得到

    M[ 0,0] = 0;

    M[ s1i, 0 ] = |s1i|;

    M[ 0, s2j ] = |s2j|;

    根据性质2得到

    M[ i, j ] = min( m[i-1,j-1] + E[ i, j ] , m[i, j-1] , m[i-1, j] );
    --------------------------------------------------------------------------------------------------------------------------

    复杂度

    从新的计算式看出,计算过程为

    i=1 -> |s1|

    j=1 -> |s2|

    M[i][j] = ……

    因此复杂度为 O( |s1| * |s2| ) ,如果假设他们的长度都为n,则复杂度为 O(n^2)
    --------------------------------------------------------------------------------------------------------------------------

    参考:

    编辑距离及编辑距离算法 - as_ - 博客园

    http://www.cnblogs.com/biyeymyhjob/archive/2012/09/28/2707343.html

    编辑距离 与 字符串匹配_nyykx_新浪博客

    http://blog.sina.com.cn/s/blog_8e037f44010102jj.html

    编辑距离问题 - 经典DP问题 - 这个人很懒 - 开源中国社区

    http://my.oschina.net/mustang/blog/58125

  • 相关阅读:
    LG P4161 [SCOI2009]游戏/LG P6280 [USACO20OPEN]Exercise G
    BZOJ3473 字符串
    BZOJ4545 DQS的trie
    LG P5212 SubString
    batj ,tmd用的都是什么技术。
    java社招面试题目
    python,go,java 的发展
    互联网 后端技术必备知识
    java语言三件套
    java spring全家桶
  • 原文地址:https://www.cnblogs.com/daijkstra/p/4828479.html
Copyright © 2011-2022 走看看