python实现最小可编辑距离

zoukankan html css js c++ java

python实现最小可编辑距离
算法原理

在计算文本的相似性时，经常会用到编辑距离。编辑距离，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。通常来说，编辑距离越小，两个文本的相似性越大。这里的编辑操作主要包括三种：
- 插入：将一个字符插入某个字符串；
- 删除：将字符串中的某个字符删除；
- 替换：将字符串中的某个字符替换为另外一个字符。
  下面通过示例来看一下。
将字符串batyu变为beauty，编辑距离是多少呢？这需要经过如下步骤：
- 1、batyu变为beatyu（插入字符e）
- 2、beatyu变为beaty（删除字符u）
- 3、beaty变为beauty（插入字符u）
所以编辑距离为3。

那么，如何用Python计算编辑距离呢？我们可以从较为简单的情况进行分析。

当两个字符串都为空串，那么编辑距离为0；
当其中一个字符串为空串时，那么编辑距离为另一个非空字符串的长度；
当两个字符串均为非空时(长度分别为 i 和 j )，取以下三种情况最小值即可：
- 1、长度分别为 i-1 和 j 的字符串的编辑距离已知，那么加1即可；
- 2、长度分别为 i 和 j-1 的字符串的编辑距离已知，那么加1即可；
- 3、长度分别为 i-1 和 j-1 的字符串的编辑距离已知，此时考虑两种情况，若第i个字符和第j个字符不同，那么加1即可；如果相同，则不需要加1。
  很明显，上述算法的思想即为动态规划。
代码实现：
```
def min_edit_distance(a, b):
        dp = [[0 for i in range(len(b) + 1)] for j in range(len(a) + 1)]
        for i in range(len(a) + 1):
            dp[i][0] = i
        for j in range(len(b) + 1):
            dp[0][j] = j
        for i in range(1, len(a) + 1):
            for j in range(1, len(b) + 1):
                if a[i - 1] == b[j - 1]:
                    dp[i][j] = dp[i - 1][j - 1]
                else:
                    dp[i][j] = min(dp[i - 1][j] + 1, dp[i][j - 1] + 1, dp[i - 1][j - 1] + 1)
        # print(dp[-1][-1])
        return dp[-1][-1]

if __name__ == "__main__":
    A = input("输入字符串1：")
    B = input("输入字符串2：")
    print(min_edit_distance(A,B))
```
参考：
https://www.cnblogs.com/hylogs/p/13021777.html
查看全文

相关阅读:
vue工作篇
 idea快捷键
 idea怎么随时随地调整字体大小
 idea配置maven
idea启动加速
 idea配置tomcat
idea设置哪个浏览器打开
 jsonArray和jsonObject的理解
 多文件上传保存到本地服务器
 并发编程

原文地址：https://www.cnblogs.com/davis12/p/14716781.html

python实现最小可编辑距离

代码实现：