zoukankan      html  css  js  c++  java
  • 整理相似度的一些算法

    minHash好像不应该放这里,判断文档的相似性,分类也有问题,应该按照相似度算法划分到一起

    局部敏感哈希

    Locality Sensitive Hash
    一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构,诸如KD-Tree、SR-Tree相比,它较好地克服了Curse of Dimension,能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体(图像、音频)的相似性判断。
    LSH是一种概率方法,采用过滤一验证的框架(Filter一and一Refine framework)。在过滤阶段,LSH利用哈希技术把非相似、不可能成为结果的数据对象过滤掉,过滤之后的数据对象作为候选集(CandidateSet),使得相似的数据对象以很高的概率留候选集合中,进而在候选集合上进行实际的距离或者相似性度量计算。由于在过滤阶段非相似的数据对象大部分被过滤掉,候选集合的大小必定会远小于原始数据集,因而极大地缩短了查询计算时间,提高了效率。

    整理Hash

    consistent hashing

    http://en.wikipedia.org/wiki/Cluster_analysis

    http://blog.csdn.net/hxxiaopei/article/details/7977248

    支持向量机

    百度文库爬虫中用到的minHash去重

  • 相关阅读:
    iOS 多线程/GCD
    iOS推送通知的实现步骤
    Swift中文教程-学习
    设计模式——观察者模式
    SSM学习
    Servlet 学习
    java基础
    DOM中节点
    会议管理系统设计
    springboot与thymeleaf 整合
  • 原文地址:https://www.cnblogs.com/johnnyflute/p/3491422.html
Copyright © 2011-2022 走看看