zoukankan      html  css  js  c++  java
  • 【算法】相似度计算之汉明距离

      汉明距离是以理查德·卫斯里·汉明的名字命名的。在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。例如:
    1011101 与 1001001 之间的汉明距离是 2。
    2143896 与 2233796 之间的汉明距离是 3。
    "toned" 与 "roses" 之间的汉明距离是 3。
     
     
    例如:(00)与(01)的距离是1,(110)和(101)的距离是2。在一个码组集合中,任意两个编码之间汉明距离的最小值称为这个码组的最小汉明距离。最小汉明距离越大,码组越具有抗干扰能力。

    计算汉明距离的算法

      思路:

      01.将两个给定的数进行 异或(^)运算后保存在变量a,汉明距离就是a的二进制中1的个数

      02.当a不为0时,和0x01进行 按位与(&)运算,如果结果为1,则统计变量加一

      03.将a右移一位,重复第02步

    function hamDist($s1, $s2){
        $len1 = strlen($s1);
        $len2 = strlen($s2);
        if($len1 != $len2){
            return false;
        }
        $dist = 0;
        for($i = 0; $i < $len1; $i++){
            if($s1[$i] != $s2[$i]){
                $dist++;
            }
        }
        return $dist;
    }
    
    $s1 = "abcde";
    $s2 = "acdeb";
    
    echo hamDist($s1, $s2);// 输出4
    

      

    /**
     * 计算编辑距离(Levenshtein Distance)
     *
     * @param string $s1
     * @param string $s2
     */
    function levDist($s1, $s2){
        $len1 = strlen($s1);
        $len2 = strlen($s2);
     
        if($len1 == 0){
            return $len2;
        }
        if($len2 == 0){
            return $len1;
        }
     
        for($i = 0; $i <= $len1; $i++){
            $matrix[$i][0] = 0;
        }
        for($j = 0; $j <= $len2; $j++){
            $matrix[0][$j] = 0;
        }
        for($i = 1; $i <= $len1; $i++){
            $ch1 = $s1[$i - 1];
            for($j = 1; $j <= $len2; $j++){
                $ch2  = $s2[$j - 1];
                $temp = $ch1 == $ch2 ? 0 : 1;
                $arr = array(
                    $matrix[$i - 1][$j] + 1,
                    $matrix[$i][$j - 1] + 1,
                    $matrix[$i - 1][$j - 1] + $temp
                );
                $matrix[$i][$j] = min($arr);
            }
        }
        return $matrix[$len1][$len2];
    }
    

      

    PHP的相似度计算函数:levenshtein 也用到该算法的实现

    levenshtein(string1,string2,insert,replace,delete)

    参数 

    • string1 必需。要对比的第一个字符串。
    • string2 必需。要对比的第二个字符串。
    • insert 可选。插入一个字符的代价。默认是 1。
    • replace 可选。替换一个字符的代价。默认是 1。
    • delete 可选。删除一个字符的代价。默认是 1。
  • 相关阅读:
    本周最新文献速递20211128
    R报错:Error in gzfile(file, "rb") : cannot open the connection rds
    本地安装github上的R包
    本周最新文献速递20211114
    本周最新文献速递20211107(论怎么在信号少、样本量少的情况下发到NG上)
    经典排序算法 桶排序Bucket sort
    经典排序算法 耐心排序Patience Sorting
    [MSSQL]FOR XML AUTO II
    经典排序算法 快速排序Quick sort
    经典排序算法 冒泡排序Bubble sort
  • 原文地址:https://www.cnblogs.com/songgj/p/8746585.html
Copyright © 2011-2022 走看看