zoukankan      html  css  js  c++  java
  • python实现最小可编辑距离

    算法原理

    在计算文本的相似性时,经常会用到编辑距离。编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。通常来说,编辑距离越小,两个文本的相似性越大。这里的编辑操作主要包括三种:

    • 插入:将一个字符插入某个字符串;
    • 删除:将字符串中的某个字符删除;
    • 替换:将字符串中的某个字符替换为另外一个字符。
      下面通过示例来看一下。

    将字符串batyu变为beauty,编辑距离是多少呢?这需要经过如下步骤:

    • 1、batyu变为beatyu(插入字符e)

    • 2、beatyu变为beaty(删除字符u)

    • 3、beaty变为beauty(插入字符u)

    所以编辑距离为3。

    那么,如何用Python计算编辑距离呢?我们可以从较为简单的情况进行分析。

    当两个字符串都为空串,那么编辑距离为0;
    当其中一个字符串为空串时,那么编辑距离为另一个非空字符串的长度;
    当两个字符串均为非空时(长度分别为 i 和 j ),取以下三种情况最小值即可:

    • 1、长度分别为 i-1 和 j 的字符串的编辑距离已知,那么加1即可;
    • 2、长度分别为 i 和 j-1 的字符串的编辑距离已知,那么加1即可;
    • 3、长度分别为 i-1 和 j-1 的字符串的编辑距离已知,此时考虑两种情况,若第i个字符和第j个字符不同,那么加1即可;如果相同,则不需要加1。
      很明显,上述算法的思想即为动态规划

    代码实现:

    def min_edit_distance(a, b):
            dp = [[0 for i in range(len(b) + 1)] for j in range(len(a) + 1)]
            for i in range(len(a) + 1):
                dp[i][0] = i
            for j in range(len(b) + 1):
                dp[0][j] = j
            for i in range(1, len(a) + 1):
                for j in range(1, len(b) + 1):
                    if a[i - 1] == b[j - 1]:
                        dp[i][j] = dp[i - 1][j - 1]
                    else:
                        dp[i][j] = min(dp[i - 1][j] + 1, dp[i][j - 1] + 1, dp[i - 1][j - 1] + 1)
            # print(dp[-1][-1])
            return dp[-1][-1]
    
    if __name__ == "__main__":
        A = input("输入字符串1:")
        B = input("输入字符串2:")
        print(min_edit_distance(A,B))
    

    参考:
    https://www.cnblogs.com/hylogs/p/13021777.html

  • 相关阅读:
    Android实战经验之图像处理及特效处理的集锦(总结版)
    Android类似于滚动的通知栏实现
    Python概览
    高效程序员的45个习惯读书笔记
    Web前台传对象字符串到后台并让后台反序列化对象字符串的方法(ASP.NET)
    发布订阅者模式之C#委托实现
    表数据复制(迁移)
    Code Smell
    Python学习过程遇到的Bug不断更新
    Resharper 7小技巧系列:导航、书签、和最近编辑
  • 原文地址:https://www.cnblogs.com/davis12/p/14716781.html
Copyright © 2011-2022 走看看