zoukankan      html  css  js  c++  java
  • LSH-局部敏感哈希

    LSH的基本思想是:

    将原始数据空间中的两个邻近数据点通过某种映射或变换,使得这两个数据点在变换后的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。

    因此,最最重要的就变成了就是找到一个这样的映射或变换,也就是所谓的hash function。有没有觉得如果找到一簇这样的函数,一下子天空都变蓝了。

    那么hash function应该怎样用数学语言来描述呢?

    对于任意q,p属于S,若从集合S到U的函数族H={h1,h2…hn}对距离函数D(q,p),如欧式距离、曼哈顿距离等等,满足条件

    $D(p,q){leq}r$且$Pro[h(p)=h(q)]{geq}p_{1}$

    $D(p,q)>r(1+{varepsilon})$且$Pro[h(p)=h(q)]{leq}p_{2}$

    则称为D(p,q)是位置敏感的。

    这两个公式就是开头的一句话的数学模型而已。

    这里说明一下,LSH不是确定性的,而是概率性的,也就是说有一定的概率可能将两个距离很远的映射到一个捅中,将距离很近的映射到不同的捅中。这是在进行降维的时候带来的不可避免的缺陷。

    不同的距离函数需要使用不同的LSH算法,目前不存在一种统一的LSH算法。


  • 相关阅读:
    kafka作业详解(HTML+Nginx+ngx_kafka_module+Kafka)
    Zookeeper知识点总结
    用CocoaPods做iOS程序的依赖管理
    iOS 正则表达式
    iOS 自定义UITabBarController
    iOS 同一UILabel改变数字的颜色
    iOS 自定义字体
    iOS 修改状态条颜色
    iOS 过滤掉HTML标签
    iOS UILabel自适应
  • 原文地址:https://www.cnblogs.com/andyniu/p/7610989.html
Copyright © 2011-2022 走看看