zoukankan      html  css  js  c++  java
  • query扩展方法汇总

    1、基于用户日志

    1.1、计算query term和doc term的条件概率

    论文标题:Probabilistic Query Expansion using Query Logs

    论文整体架构分为3部分:1、计算了query端的分布和doc端分布的不同,给出了计算方法,并通过数据论证了两者语义上的差别。2、给出了概率计算公式。3、简述了如何利用概率公式进行query扩展。

    • query空间和doc空间的gap
      query端的数据分布和doc端的数据分布是不一样的,这个是众所周知的,但是有没有一些定量的值来衡量呢?作者给出了计算方式
      计算doc的向量空间,对于每一篇doc来说,我们可以获得其向量空间({W_{1}^{(d)},W_{2}^{(d)}......W_{n}^{(d)}}) ,n表示向量空间的维度,对于每一个(W_{i}^{(d)})来说,其计算方式如下图所示,利用的就是tf-idf算法。

      接下来计算query的向量空间,在文章中叫virtual document,意思是虚拟空间。对于每一篇doc来说,我们都能获得它的点击query,通过点击query,我们可以获得virtual document vector,计算方式依旧是上图,只不过这里tf-idf计算的空间为query端的结果。
      当我们得到每一篇doc的向量和其对应的query向量时(这里是一一对应关系),则我们就能计算两者的相似性了,计算公式为

      最终,我们会得到每篇doc的相似度结果,经作者论证,表明query端和doc端的确存在很大的鸿沟。
      那么,问题来了,我们怎样来解决这个鸿沟呢?解决的办法就是利用点击日志。
    • 根据点击日志计算query和doc的term条件概率
      这张图表明了用户的点击行为,最左边的query terms表明单词的term信息,比如”北京的大学“分词后是”北京“”大学“(去除停用词后),那么query term中就包含了这两个词,同理,doc端也可以得到document terms,相应的,每个query、doc都和其term有连线。若query和doc有点击行为,则query和doc有连线,这样,就构成了下图。

      条件概率计算公式为下图,这里的(D_{k})表示有点击的doc所对应的线的连接
    • 应用于query扩展
      如下图所示,对于未知的(Q)来说,分别计算对应的条件概率,并提取概率最大的term进行扩展。

    2、基于翻译模型

    2.1

    论文题目:Learning to Rewrite Queries
    这篇文章其实给了query扩展的一个整体的框架,第一步:挖掘扩展词,第二步:对扩展词进行排序。

    • 挖掘扩展词
      这里并没有详细的介绍挖掘扩展词的算法,这块内容简单的介绍了下翻译模型如何应用于query的扩展,并且可以利用多种方式共同挖掘,最终得到(q,r)的pair对。
    • 对扩展词进行排序
      这里介绍了排序的三种方式,pair-wise,point-wise,list-pair-wise三种方式。
    • 学习目标
  • 相关阅读:
    如何发现需求
    测试linux和window下 jdk最大能使用多大内存
    java获取汉字的拼音 简单版
    oracle一条sql执行导入sql文件
    oracle使用闪回功能恢复删除的表数据
    linux环境变量配置
    有两张表;使用SQL查询,查询所有的客户订单日期最新的前五条订单记录。 糖不苦
    jQuery作业 点击出弹框 糖不苦
    #{}和${}的区别是什么? 糖不苦
    在html页面中如何使用jQuery? 糖不苦
  • 原文地址:https://www.cnblogs.com/stephen-goodboy/p/14005693.html
Copyright © 2011-2022 走看看