zoukankan      html  css  js  c++  java
  • Ranking Relevance小结

    Ranking Relevance是搜索排序算法的各个影响因子中相当重要的一个部分。对于Ranking Relevance的计算,过去的技术往往分为两个大的方向:Click BehaviorText Match

    1. Click Behavior类的feature

    主要是利用用户的点击行为来计算query-doc relevance,直观上,点击越多的query-doc pair,relevance也越高,当然Click Behavior类的feature还包括:是否是首次点击,是否是最后一次点击,是否是唯一点击,等等。

    但是Click Behavior类的feature的缺点也显而易见:

    1)Sparsity。只有“有过点击”的query-doc pair,我们才可以计算它们的relevance,而对那些历史上根本没有过点击的query-doc pair,往往束手无策。

    2)Noisy。另外一个更常见的问题是,对于长尾的query-doc pair,展现数和点击数过少,所以得到的query-doc的展现CTR等数据噪音较大,虽然也可以通过贝叶斯平滑的方式来缓解(详见博客:http://www.cnblogs.com/bentuwuying/p/6389222.html,和http://www.cnblogs.com/bentuwuying/p/6498370.html)。

    总结来看,Click Behavior类的feature,对于Top的query-doc pair(即展现次数&点击次数较多)比较可靠,对于长尾的,甚至是没出现过的query-doc pair,则不太可靠。

    2. Text Match类的feature

    包括Term Match(term级别的匹配),和Topic Match(语义级别的匹配)。Text Match并不受到query-doc的展现次数和点击次数的多少的影响,即当query和doc确定后,这类feature的值就确定了(当然前提是采用相同的模型计算的),并不会随着时间的推移而改变,是一种静态的relevance关系。

    2-1. Term Match

    包括:直接根据query和doc的term进行各种匹配,各种计算得到,比如,词频(term frequency),TF-IDF,布尔模型,空间向量模型(将query和doc各自分词后的term组成一个共享的词典vector,然后各自表示成相同维度的vector,计算相似度),BM25,query与doc各个field的term级别重叠比例(重叠term个数占query term个数的比例,重叠term个数占doc各个field的term个数的比例,query-doc的N-gram重叠比例,query能覆盖doc的N-gram prefix的比例,query-doc是否perfect match)等。

    Term Match的缺点在于:

    1) 无法解决近义词的问题,由于是term级别的匹配,那么近义词虽然表达的意思近似,但是却无法匹配,或者说在向量空间上距离很远,即无法表达近义词。

    2)query和doc上的term的语法表达的区别,例如query中的“how much”与doc中的“price”,意思虽然近似,但是存在语法语义上的区别。

    2-2. Topic Match

    包括:一般是将query和doc都映射到一个隐含层空间向量上(隐语义空间),然后基于这个隐含层空间上的vector计算相似度,一般可以用pLSA,或者LDA等NLP模型来处理)

    Topic Match的缺点在于,解释性较差,不同于Term Match中我们把query和doc切分到term级别,解释性较强,而在Topic Match中,映射到隐语义空间上时,vector每个维度表达的意思并不知道,不利于验证和debug。

    版权声明:

       本文由笨兔勿应所有,发布于http://www.cnblogs.com/bentuwuying。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。

  • 相关阅读:
    android29
    android28
    android27
    android26
    Dynamics CRM2011 MspInstallAction failed when installing an Update Rollup
    Dynamics CRM Import Solution Attribute Display Name description is null or empty
    The service cannot be activated because it does not support ASP.NET compatibility
    IIS部署WCF报 无法读取配置节“protocolMapping”,因为它缺少节声明
    Unable to access the IIS metabase.You do not have sufficient privilege
    LM算法与非线性最小二乘问题
  • 原文地址:https://www.cnblogs.com/bentuwuying/p/6714064.html
Copyright © 2011-2022 走看看