zoukankan      html  css  js  c++  java
  • Supervised Hashing with Kernels, KSH

    Notation

    该论文中应用到较多符号,为避免混淆,在此进行解释:

    n:原始数据集的大小

    l:实验中用于监督学习的数据集大小(矩阵S行/列的大小)

    m:辅助数据集,用于得到基于核的哈希函数

    r:比特位数量/哈希函数的个数

    1. Introduction

    先前的哈希检索方法,要么精度低,要么目标函数过于复杂导致导致训练慢。在大规模的图像数据检索中,这些方法就不太适用。先前的哈希方法都是对汉明距离进行直接优化,但是因为汉明距离是nonconvex和nonsmooth,难以优化。在本文中,作者利用汉明距离和编码内积等价的特点,得到了一个非常高效易于优化的目标函数。同时,作者利用的内积的可分性,设计了一个贪婪算法逐比特位得对哈希函数进行求解。此外,为了适应线性不可分的数据,作者还应用了基于核的公式。得到了Kernel-Based Supervised Hashing(KSH)。并在CIFAR-10和TINY数据集上与无监督、半监督、监督等多种哈希方法进行比较,证明了KSH具有最好的表现。

    2. Kernel-Based Supervised Hashing

    2.1 Hash Functions with Kernels

    论文利用基于核的哈希函数,解决了原始数据线性不可分的问题。对应的哈希函数如下:

    屏幕快照 2018-10-06 下午8.22.04

    该哈希函数由Kernelized Locality-Sensitive Hashing(KLSH)推导而来。查阅了下这篇文献,整个核哈希函数的推导过程大致如下:两个数据点间的相似性可由向量内积(sim(x_i, x_j) = (x_i^{T}x_j) / (||x_i||_2||x_j||_2))来表示,为了解决原始数据的线性不可分问题,KLSH引入了核函数,于是得到了:

    屏幕快照 2018-10-06 下午8.30.03

    之后,经由均值、方差、特征值分解等等一系列的代数变换,得到了上述基于核的哈希函数。

    In order to maintain efficiency and to maintain sublinear time searches, we want p to be much smaller than n. For example, (p = O(sqrt n))would guarantee that the algorithm maintains sublinear search times.

    为了确保线性的搜索速度,KLSH中建议m(p)的的取值为(O(sqrt n))

    2.2 Manipulating Code Inner Products

    在监督学习中,通过类别标签信息,原始数据集(X)可以划分为(M)(C)两个集合,其中(M)中的数据点都是相似的,(C)中的数据点都是不相似的。通过对(X)进行部分采样,取(l)个样本构造相似矩阵(S)如下:

    屏幕快照 2018-10-12 上午11.56.57

    我们的目标是通过相似矩阵优化得到具有局部敏感特征的哈希函数,但是直接对汉明距离(D_h(x_i,x_j)=|{k|h_k(x_i)≠h_k(x_j),1≤k≤r}|)进行优化在数学上是难以求解的。因此,论文采用了code inner products来进行优化。code inner products可以如下表示:

    屏幕快照 2018-10-12 下午12.07.52

    由于r为码长是个常熟,因此从上式可以看到code inner products等价于汉明距离,存在一一映射的关系,我们可以通过优化code inner products的方法进而优化汉明距离。得到目标函数如下:

    屏幕快照 2018-10-12 下午12.12.20

    其中矩阵(H)表示向量(x)的哈希编码。接着再通过引入2.1节中的核哈希函数,得到最终目标函数如下:

    屏幕快照 2018-10-12 下午12.16.39

    2.3 Greedy Optimization

    通过简单的代数变换,可以得到目标函数如下:

    屏幕快照 2018-10-07 上午11.03.05

    其中(a_k)为第k个哈希函数。在优化时,逐比特位得进行优化,即先优化(a_1、a_2 ... a_{k-1}),然后再之前的基础上再优化(a_k)。在此定义一个残差矩阵为:

    屏幕快照 2018-10-07 上午10.33.38

    显然,有(R_0 = rS)。因此,哈希函数可以通过最小化如下损失函数进行求解:

    屏幕快照 2018-10-07 上午10.36.20

    通过去掉常数项,可以得到哈希函数(a_k)的目标函数为:

    屏幕快照 2018-10-07 上午10.38.05

    Spectral Relaxation:因为此时的目标函数时非凸的,难以进行优化,因此论文应用了Spectral relaxation trick的方法,去掉了sgn函数,得到目标函数如下:

    屏幕快照 2018-10-07 上午10.53.22

    显然,通过变换,我们可以得到一个广义特征值问题(K_l^TR_{k-1}K_la = lambda K_l^TK_la)。通过求解最大特征值对应的特征向量,并进行适当的尺度缩放以满足限制条件,我们可以得到(a)的解。但是,这个方法在l非常大时,优化结果不理想,因此KSH仅将这部作为(a_k)的初始化选择。

    Sigmoid Smoothing:通过用sigmoid函数替换sgn函数,我们可以对目标函数进行优化。之后通过牛顿梯度下降方法,可以得到(a_k)的最优解(局部)。

    算法流程如下:

    屏幕快照 2018-10-07 上午11.00.26

    在算法运行时,先初始化(R_0 = rS),在这个基础上逐步对(a_1、a_2 ... a_k)等进行优化。因为有着Spectral Relaxing中限制条件屏幕快照 2018-10-07 上午10.41.49的约束,因此在一开始对(a_1)进行优化时,经由广义特征值求解、梯度下降之后得到的哈希函数(a_1)不会使得(R_0 = rS),优化结果只与(a_1)本身相关,和其他哈希函数无关。

    从本质上看,(rS) 的信息是由r个哈希函数组合而成的,且哈希函数之间互相独立不相关。因此,在对(a_1)进行优化之后,我们可以从(rS)中去除掉哈希函数(a_1)相关的信息,继而对剩下的哈希函数进行优化。整个算法的思想不是直接对全局的目标函数进行优化,而是尽可能贪心地、逐比特位进行优化,这也是为什么算法称为Greedy Optimization的原因(个人理解)。

    3. Experiments

    在对查询点进行查询时,将汉明距离小于一定距离的图像作为查询结果返回。

    • metric distance neighbors

      当距离小于一定阈值时,即认为两个数据是相似的。

    • semantically similar neighbors

      只有当两个属于的标签一致时,才认为两个数据是相似的。具有更强的置信度。

    • Hashing table的构造

      个人理解:m个数据,经过c个哈希函数映射后,得到矩阵(H∈R^{m*c}),矩阵H的第i行代表第i个数据对应的哈希编码,矩阵的第j列代表哈希表的第j个bucket。

    评价标准:

    • precision

      对于一个查询,返回了一系列的文档,正确率指的是返回的结果中相关的文档占的比例,定义为:precision=返回结果中相关文档的数目/返回结果的数目。

    • recall

      召回率则是返回结果中相关文档占所有相关文档的比例,定义为:Recall=返回结果中相关文档的数目/所有相关文档的数目。

    • mAP

      正确率只是考虑了返回结果中相关文档的个数,没有考虑文档之间的序。对一个搜索引擎或推荐系统而言返回的结果必然是有序的,而且越相关的文档排的越靠前越好,于是有了AP的概念。对一个有序的列表,计算AP的时候要先求出每个位置上的precision,然后对所有的位置的precision再做个average。如果该位置的文档是不相关的则该位置 precision=0。

    • the success rate of hash lookup

    屏幕快照 2018-10-06 下午9.38.32

    4. Conclusions

    KSH算法具有以下三个优点:

    • 利用核函数解决了原始数据不可分的问题;
    • 设计了一个基于coder inner products的目标函数,易于优化;
    • 利用贪心算法逐比特位得求解方法。
  • 相关阅读:
    同样的请求img代码,单个html文件和项目中的html文件请求结果不一样
    CSS中A标签断字不换行问题(基础知识)
    句柄无效。 (异常来自 HRESULT:0x80070006 (E_HANDLE))
    Ext.Net 控件FileUploadField上传文件
    500内部服务器错误。你查找的资源存在问题,因而无法显示
    WebService 错误:无法加载协定为xxx的终结点配置部分,因为找到了该协定的多个终结点配置
    SyntaxError: unterminated string literal
    servlet入门
    myeclipse视图布局恢复
    JavaWEB开发入门
  • 原文地址:https://www.cnblogs.com/CSLaker/p/9781721.html
Copyright © 2011-2022 走看看