zoukankan      html  css  js  c++  java
  • Information Retrieval --- Retrieval Model

    一、布尔模型

    AND查询:倒排记录表的合并(求交集)

    OR查询:倒排记录表的并集

    查询优化:按df从小到大处理

    二、向量空间模型

    2.1 基本tf-idf向量空间模型

    image

    a.查询与文档的相关度采用余弦相似度计算:

    image

    b.tf-idf权重计算(对数词频-逆文档频率):

    image

    image

    c.文档长度归一化:平衡短文档和长文档,降低短文档的相似度,提高长文档的相似度。

    image

    2.2 隐形语义索引LSI(降维后的空间向量模型):对词项-文档矩阵进行SVD分解(奇异值分解)。

    image

    image

    image

    image

    image

    三、概率检索模型

    1.Logistic回归(特征选择困难)

    基本思想:为了求Q和D相关的概率P(R=1|Q,D),通过定义多个特征函数fi(Q,D),认为P(R=1|Q,D)是这些函数的组合。

    image

    2.二值独立概率模型BIM(假设条件独立,需要估计参数)

    基本思想:BIM模型通过Bayes公式对所求条件概率P(R=1|Q,D)展开进行计算。对于同一Q,P(R=1|Q,D)可以简记为P(R=1|D)。

    image

    a.多元伯努利分布(考虑是否出现)

    b.多项分布(考虑出现次数)

    image

    *pi,qi参数计算

    image

    image

    3.BestMatch BM25模型

    image

    四、语言检索模型

    1.统计语言模型:文档中语句的生成满足某些规则,并服从统计规律。

    image

    image

    2.查询似然模型QLM(文档以多项分布生成)

    基本思想:检索问题转化为估计文档D的一元语言模型MD,也即求所有词项w的概率P(w|MD)

    image

    image

    3.翻译模型:X为文档,Y为查询。

    image

    image

    4.KL距离(相对熵)模型

    image

    五、基于排序机器学习的检索模型

    1.基于布尔权重学习

    image

    2.基于实数权重学习:带松弛变量的SVM

    基本思想:评分函数是两个因子的线性组合:
    1 查询和文档的向量空间相似度评分 (记为 α)
    2 查询词项在文档中存在的最小窗口宽度 (记为 ω)

    image

    3.基于序回归的排序学习

    image

    image

  • 相关阅读:
    SCILAB
    定积分的scilab程序
    4月26日科目一练习(96分)
    4月27日1科目一练习(90分)
    4月27日科目一练习(93分)
    4月12日科目一练习(91分)
    测试学习网站
    HttpWatch工具简介及使用技巧(转)
    Linux系统资源分析
    LoadRunner监控Linux服务器
  • 原文地址:https://www.cnblogs.com/jizhiyuan/p/3477393.html
Copyright © 2011-2022 走看看