zoukankan      html  css  js  c++  java
  • 哈希学习

    1 背景介绍

      首先介绍一下最近邻搜索:最近邻搜索问题,也叫相似性搜索,近似搜索,是从给定数据库中找到里查询点最近的点集的问题。 

      给定一个点集,以及一个查询点q,需要找到离q最近的点的集合;在大规模高维度空间的情况下,这个问题就变得非常难,而且大多数算法计算量极大,复杂度很高; 而且一般用近似的最邻近搜索代替;哈希就是解决上述这类问题的主要方法。

    2 哈希学习的目的与分类

      哈希学习的目的:通过机器学习机制将数据映射成简洁的二进制串的形式, 同时使得哈希码尽可能地保持原空间中的近邻关系, 即保相似性.(这一点很重要,如果失去了原来的相似性,那么哈希学习也就变得没有意义了)
      以下面这幅图为例,原始数据是三幅图像,其中后面这两幅相似度比较高,也就是说在原始空间中从语义层次的距离或者欧氏距离都比较近,映射为哈希码之后,距离也应该更近。

      哈希的方法主要分为两大类:1、第一种的代表是局部敏感哈希(LSH),这种方法主要是人工设计或者随机生成哈希函数,是一种数据独立的方法;2、第二种是哈希学习的方法,希望从数据中自动学习出哈希函数,是一种数据依赖的方法;也是现在主流的方法;显然第二种具有数据依赖性,是一种更有适应性的方法。  
    3 哈希学习的步骤

    1. 先对原空间的样本进行降维, 得到1个低维空间的实数向量表示; 
    2. 对得到的实数向量进行量化(即离散化)得到二进制哈希码;

      对于第一步如何降维,我们这里不再做介绍,下面主要介绍一下量化的方法。

    4 量化方法
      目的:对于一个低维向量把它映射为一个二进制哈希码,并且尽可能的保持原来的相似性。 

    1、SBQ 
      介绍:对于给出向量的每一个维度的数值,我们设定一个阈值。然后根据这个维度数值的情况与阈值作比较,确定其映射的二进制数是0还是1。之后我们把每个维度映射出的二进制数串起来组成哈希码。 

      举例:比如某一向量为[4,3,7,8],我们设定阈值为5,并且>=5为1,反之为0.  那么该向量对应的二进制哈希码为0011.

      相似性的衡量方法:对于映射好的哈希码如何衡量他们之间的相似度呢?我们采用汉明距离来衡量(二进制对应位不同的个数,比如0011与0000的汉明距离是2)

    2、HQ
      跟SBQ比较类似,是将每一个维度划分为四个区域,使用三个阈值和两位二进制码来编码;

      相似性的衡量方法:也是采用汉明距离来衡量。

    转:liyongqi_

    关于哈希学习这篇文章也不错!

    流形学习(与哈希学习对比)

  • 相关阅读:
    NVIDIA驱动瘫痪再重装的问题
    ubuntu 14.04下NVIDIA驱动及cuda toolkit安装
    ubuntu下sogou输入法的输入框只显示英文不显示中文的解决方法
    ubuntu14.04下安装opencv3.2
    ubuntu14.04 卸载 boost
    编译错误: /usr/lib may be hidden by files in /home/username/anaconda/lib
    爬虫抓取网页内容
    学生手册成绩分析以学院为单位进行划分
    VisualSVN 设置SVN客户端必须填写日志才能提交
    Linux系统上java应用(例如spring boot)启动慢的原因之一
  • 原文地址:https://www.cnblogs.com/Terrypython/p/10635840.html
Copyright © 2011-2022 走看看