LSH(Locality Sensitive Hashing)原理与实现

zoukankan html css js c++ java

LSH(Locality Sensitive Hashing)原理与实现
原文地址：https://blog.csdn.net/guoziqing506/article/details/53019049

LSH(Locality Sensitive Hashing)翻译成中文，叫做“局部敏感哈希”，它是一种针对海量高维数据的快速最近邻查找算法。

在信息检索，数据挖掘以及推荐系统等应用中，我们经常会遇到的一个问题就是面临着海量的高维数据，查找最近邻。如果使用线性查找，那么对于低维数据效率尚可，而对于高维数据，就显得非常耗时了。为了解决这样的问题，人们设计了一种特殊的hash函数，使得2个相似度很高的数据以较高的概率映射成同一个hash值，而令2个相似度很低的数据以极低的概率映射成同一个hash值。我们把这样的函数，叫做LSH（局部敏感哈希）。LSH最根本的作用，就是能高效处理海量高维数据的最近邻问题

定义

我们将这样的一族hash函数
1. 如果
2. 如果
其中，

相似度的定义根据实际情况自己决定（有关数据对象相似度的比较，详情可以参考我的另一篇博文：数据相似性的度量方法总结），后面我们可以看到，针对不同的相似度测量方法，局部敏感哈希的算法设计也不同，我们主要看看在两种最常用的相似度下，两种不同的LSH：
1. 使用Jaccard系数度量数据相似度时的min-hash
2. 使用欧氏距离度量数据相似度时的P-stable hash
当然，无论是哪种LSH，其实说白了，都是将高维数据降维到低维数据，同时，还能在一定程度上，保持原始数据的相似度不变。LSH不是确定性的，而是概率性的，也就是说有一定的概率导致原本很相似的数据映射成2个不同的hash值，或者原本不相似的数据映射成同一hash值。这是高维数据降维过程中所不能避免的（因为降维势必会造成某种程度上数据的失真），不过好在LSH的设计能够通过相应的参数控制出现这种错误的概率，这也是LSH为什么被广泛应用的原因。

min-hash

hash函数的选择

了解min-hash之前，首先普及一下Jaccard系数的概念。Jaccard系数主要用来解决的是非对称二元属性相似度的度量问题，常用的场景是度量2个集合之间的相似度，公式这里我不写了，就是2个集合的交比2个集合的并。

比如，我在底下的表格中写出了4个对象（你可以看做是4个文档）的集合情况，每个文档有相应的词项，用词典

word

1 0 1 0

1 1 0 1

0 1 0 1

0 0 0 1

0 0 0 1

1 1 1 0

1 0 1 0

首先，我们现在将上面这个word-document的矩阵按行置换，比如可以置换成以下的形式：

word

1 1 0 1

1 0 1 0

0 0 0 1

0 1 0 1

1 0 1 0

1 1 1 0

0 0 0 1

可以确定的是，这没有改变文档与词项的关系。现在做这样一件事：对这个矩阵按行进行多次置换，每次置换之后，统计每一列（其实对应的就是每个文档）第一个不为0的位置（行号），这样每次统计的结果能构成一个与文档数等大的向量，这个向量，我们称之为签名向量。

比如，如果对最上面的矩阵做这样的统计，得到

简单来想这个问题，就拿上面的文档来说，如果两个文档足够相似，那也就是说这两个文档中有很多元素是共有的，换句话说，这样置换之后统计出来的签名向量，如果其中有一些文档的相似度很高，那么这些文档所对应的签名向量的相应的元素，值相同的概率就很高。

我们把最初始时的矩阵叫做input matrix，由

下面是我盗的一张图，能够很清晰的展现出这一套流程：

图中，4个文档，做了3次置换，得到了一个3 x 4的签名矩阵。感谢提供图的这篇博文的作者：http://blog.sina.com.cn/s/blog_4ff49c7e0102vl52.html

需要注意的是，置换矩阵的行，在代码实现的时候，可以用这样的算法实现：
1. 在当下剩余的行中（初始时，剩余的行为全部行），随机选取任意一行，看看这一行哪些位置（这里的位置其实是列号）的元素是1，如果签名向量中这个位置的元素还未被写入，则在这个位置写入随机选取的这个行的行号。并将这一行排除。
2. 持续进行1步的工作，直到签名向量全部被写满为止。
以上2步的意义跟对整个矩阵置换、再统计，结果是一样的。这么说可能有点抽象，我把函数放在下面：
```
def sigGen(matrix):
    """
    * generate the signature vector

    :param matrix: a ndarray var
    :return a signature vector: a list var
    """

    # the row sequence set
    seqSet = [i for i in range(matrix.shape[0])]

    # initialize the sig vector as [-1, -1, ..., -1]
    result = [-1 for i in range(matrix.shape[1])]

    count = 0

    while len(seqSet) > 0:

        # choose a row of matrix randomly
        randomSeq = random.choice(seqSet)

        for i in range(matrix.shape[1]):

            if matrix[randomSeq][i] != 0 and result[i] == -1:
                result[i] = randomSeq
                count += 1
        if count == matrix.shape[1]:
            break

        seqSet.remove(randomSeq)

    # return a list
    return result
```
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
现在给出一个定理。

定理：对于签名矩阵的任意一行，它的两列元素相同的概率是

这个定理我想不用证明了。实际上，置换input matrix的行，取每列第一个非0元的做法，就是一个hash函数。这个hash函数成功地将多维数据映射成了一维数据。而从这个定理我们发现，这样的映射没有改变数据相似度。

需要注意的一点是，这里的hash函数只能对Jaccard系数定义数据相似度的情况起作用。不同的相似度模型，LSH是不同的，目前，还不存在一种通用的LSH。

构造LSH函数族

为了能实现前面LSH定义中的2个条件的要求，我们通过多次置换，求取向量，构建了一组hash函数。也就是最终得到了一个signature matrix. 为了控制相似度与映射概率之间的关系，我们需要按下面的操作进行，一共三步。

(1) 将signature matrix水平分割成一些区块（记为band），每个band包含了signature matrix中的

(2) 对每个band计算hash值，这里的hash算法没有特殊要求，MD5，SHA1等等均可。一般情况下，我们需要将这些hash值做处理，使之成为事先设定好的hash桶的tag，然后把这些band“扔”进hash桶中。如下图所示。但是这里，我们只是关注算法原理，不考虑实际操作的效率问题。所以，省略处理hash值得这一项，得到每个band的hash值就OK了，这个hash值也就作为每个hash bucket的

(3) 如果某两个文档的，同一水平方向上的band，映射成了同一hash值（如果你选的hash函数比较安全，抗碰撞性好，那这基本说明这两个band是一样的），我们就将这两个文档映射到同一个hash bucket中，也就是认为这两个文档是足够相近的。

好了，既然执行的是上面三步的操作，那不难计算出两个文档被映射到同一个hash bucket中的概率：
- 对于两个文档的任意一个band来说，这两个band值相同的概率是：
- 也就是说，这两个band不相同的概率是
- 这两个文档一共存在
- 所以说，这
我愿意把这样的方法称为

概率
- 当
  $P r (L S H (O 1) = L S H (O 2)) = 1 - (1 - 0.8 5) 5 = 0.9996439421094793$
- 当
  $P r (L S H (O 1) = L S H (O 2)) = 1 - (1 - 0.2 5) 5 = 0.0063805813047682$
不难看出，这样的设计通过调节参数值，达到了“越相似，越容易在一个哈希桶；越不相似，越不容易在一个哈希桶”的效果。这也就能实现我们上边说的LSH的两个性质。

我画出了在

当相似度高于某个值的时候，概率会变得非常大，并且快速靠近1，而当相似度低于某个值的时候，概率会变得非常小，并且快速靠近0.

限于篇幅，代码就不在博客里罗列了，需要的话可以访问我的github主页：
https://github.com/guoziqingbupt/Locality-sensitive-hashing
这个项目中，我一共写了min-hash和e2LSH两个算法的实现，min-hash部分请参见模块min_hash.py

另外，需要注意的是，每一层的band只能和同一层的band相比，若hash值相同，则放入同一个哈希桶中。

P-stable hash

最开始的时候，我们已经说过，不同的相似度判别方法，对应着不同的LSH，那对于最常见的Lp范数下的欧几里得空间，应该用怎样的LSH呢？这就要介绍P-stable hash了。

P-stable distribution

在讲解P-stable hash之前，先简单介绍一下p稳定分布的概念。

定义：一个分布

目前，根据相关文献，在
当然，

p稳定分布有什么作用呢，我们为什么在这里提出来？它有一个重要的应用，就是可以估计给定向量

可以这样实现：对于一个向量

p-stable 分布LSH函数族构造

在p稳定的局部敏感hash中，我们将利用
- 将空间中的一条直线分成长度为
- 通过一种映射函数（也就是我们要用的hash函数），将空间中的点映射到这条直线上，给映射到同一段的点赋予相同的hash值。不难理解，若空间中的两个点距离较近，他们被映射到同一段的概率也就越高。
- 之前说过，
- 综合上面的3条，可以得到这样一个结论：空间中两个点距离：
文献[1]提出了这样一种hash函数族：

$h_{a, b} (v) = ⌊ \frac{a \cdot v + b}{r} ⌋$

其中，

可见，若要空间中的两个点

现在估计一下这个概率。设

$p (c) = P r [h_{a, b} (v_{1}) = h_{a, b} (v_{2})] = \int_{0}^{r} \frac{1}{c} f_{p} (\frac{t}{c}) (1 - \frac{t}{r}) d t$

当

但是关于

试想，因为我们设定的LSH是

文献[1]指出，选取合适的

这是在L2范数下，
2. 在
3. 虽然从图像的趋势上看，
所以，可见

p-stable 分布LSH相似性搜索算法

上面完成了对p-stable 分布LSH函数族构造。那么接下来的问题是怎样具体实现hash table的构造以及查询最近邻。我将这个问题按照本人自己的理解写在下面。因为确实难以找到一个权威的文献具体论述这个问题，虽然文献[3]中讲解了这个问题，但是表达有点模糊不清。所以，下面的内容是我自己的理解，个人觉得问题应该不大，如有错误，请批评指正。

我们构建hash table的过程就是要用这个函数族的每一个函数对每一个向量执行hash运算。为了减少漏报率False Negative（就是本来很相近的两条数据被认为是不相似的），一种解决方案是用多个hash函数对向量执行hash运算，比如说，对任意一个向量

但是，现在有一个问题，那就是上面这种做法的结果，确实减少了漏报率，但与此同时，也增加了误报率（本来不很相近的两条数据被认为是相近的）。所以，需要在上面方法的基础上，再增加一个措施。我们从LSH函数族中，随机选取

其实上面两段的做法，就是一个简单的

现在假设

$1 - (1 - P^{k})^{L}$

构建hash table时，如果把一个函数组对向量的一组hash值

先设计两个hash函数：
这两个函数具体的算法如下，其中，

$H_{1} (x_{1}, \dots, x_{k}) = ((\sum_{i = 1}^{k} r_{i} x_{i}) \mod C) \mod s i z e H_{2} (x_{1}, \dots, x_{k}) = (\sum_{i = 1}^{k} r_{i}^{^{'}} x_{i}) \mod C$

我们把

通过这两个新建的函数，我们可以将hash table的构建步骤作以下详细说明：
1. 从设计好的LSH函数族中，随机选取
2. 每个数据向量经过
3. 将2步生成的
4. 若其中有数据向量拥有相同的数据指纹，那么必然会被映射到同一个hash bucket当中
通过Fig.1，就不难理解这里的数据结构了，数据向量由

可以得到相同

由于篇幅限制，我在此省略代码，详细的代码实现请参考我的github主页的项目，里面的e2LSH模块写的是p - stable 局部敏感hash的算法：
https://github.com/guoziqingbupt/Locality-sensitive-hashing

本文写的战战兢兢，实在不敢说没有问题，望大家参考，批评指正。

参考文献

[1] Datar M, Immorlica N, Indyk P, et al. Locality-sensitive hashing scheme based on p-stable distributions[C]//Proceedings of the twentieth annual symposium on Computational geometry. ACM, 2004: 253-262.

[2]LSH和p-stable LSH http://blog.sina.com.cn/s/blog_67914f2901019p3v.html

[3]E2LSH源码分析–p稳定分布LSH算法初探
http://blog.csdn.net/jasonding1354/article/details/38237353
查看全文

相关阅读:
idea教程--面板介绍
 idea教程--使用mave创建普通java项目
 【Spring】Spring中的Bean
【Spring】创建一个Spring的入门程序
 【Spring】 Spring的核心容器
 【玩转算法】1、总结，算法思想，加油
 【高级排序算法】3、归并排序法的优化
 【高级排序算法】2、归并排序法的实现-Merge Sort
【高级排序算法】1、归并排序法
 【排序基础】6、插入排序法的改进与选择排序的效率比较

原文地址：https://www.cnblogs.com/lzhu/p/9224959.html


1	0	1	0
1	1	0	1
0	1	0	1
0	0	0	1
0	0	0	1
1	1	1	0
1	0	1	0


1	1	0	1
1	0	1	0
0	0	0	1
0	1	0	1
1	0	1	0
1	1	1	0
0	0	0	1

LSH(Locality Sensitive Hashing)原理与实现

定义

min-hash

hash函数的选择

构造LSH函数族

P-stable hash

P-stable distribution

p-stable 分布LSH函数族构造

p-stable 分布LSH相似性搜索算法

参考文献