字符串相似度

zoukankan html css js c++ java

字符串相似度

这篇我们看看最长公共子序列的另一个版本，求字符串相似度(编辑距离)，我也说过了，这是一个非常实用的算法，在DNA对比，网

页聚类等方面都有用武之地。

一：概念

对于两个字符串A和B，通过基本的增删改将字符串A改成B，或者将B改成A，在改变的过程中我们使用的最少步骤称之为“编辑距离”。

比如如下的字符串：我们通过种种操作，痉挛之后编辑距离为3，不知道你看出来了没有？

二：解析

可能大家觉得有点复杂，不好理解，我们试着把这个大问题拆分掉，将"字符串 vs 字符串“，分解成”字符 vs 字符串“，再分解

成”字符 vs 字符“。

<1> ”字符“vs”字符“

这种情况是最简单的了，比如”A“与”B“的编辑距离很显然是1。

<2> ”字符”vs"字符串"

”A“改成”AB“的编辑距离为1，“A”与“ABA”的编辑距离为2。

<3>“字符串”vs“字符串”

“ABA”和“BBA”的编辑距离为1，仔细发现我们可以得出如下结论，”ABA“是由23个子序列与”BBA“字符串求的的编辑距离集

合中取出的最小编辑距离，也就是说在这种情况下我们出现了重复计算的问题，我在求子序列”AB“和”BBA"的编辑距离时，我是由

子序列”A“和”BBA“与”B“和”BBA“之间的编辑距离中选出一个最小值，然而序列A和序列B早之前我已经计算过了，这种重复计算

的问题有点像”斐波那契”，正好满足“动态规划”中的最优子结构和重叠子问题，所以我们决定采用动态规划来解决。

三：公式

跟“最长公共子序列”一样，我们采用一个二维数组来保存字符串X和Y当前的位置的最小编辑距离。

现有两个序列X={x1,x2,x3，...xi}，Y={y1,y2,y3，....，yi}，

设一个C[i,j]: 保存Xi与Yj的当前最小的LD。

①：当 Xi = Yi 时，则C[i,j]=C[i-1,j-1]；

②：当 Xi != Yi 时，则C[i,j]=Min{C[i-1,j-1],C[i-1,j],C[i,j-1]}；

最终我们的C[i,j]一直保存着最小的LD。

查看全文

相关阅读:
小熊派4G开发板初体验
 空间换时间，查表法的经典例子
 C语言、嵌入式应用：TCP通信实践
 【实践】基于RT-Thread的智慧路灯案例实验分享
 STM32串口打印的那些知识
 【RT-Thread笔记】BH1750软件包的使用
 【RT-Thread笔记】OneNet软件包的使用
 串口通讯你真的会了吗？不妨看看这些经验
 三小记（2）
audio标签实现简单的自定义播放器

原文地址：https://www.cnblogs.com/bytebull/p/7985663.html