zoukankan      html  css  js  c++  java
  • [IR课程笔记]概率检索模型

    几个符号意义:

         R:相关文档集

           NR:不相关文档集

           q:用户查询

           dj:文档j

    1/0风险情况

         PRP(probability ranking principle):概率排序原理,利用概率模型来估计每篇文档和需求相关概率,然后对结果进行排序。

          贝叶斯最优决策原理,基于最小损失风险作出决策,返回相关的可能性大于不相关的可能性的文档:

           基于检索代价的概率排序原理:

        

           crrP(R|D) + crnP(NR|D) < cnrP(R|D) + cnnP(NR|D)

    如何计算概率

           文档d可以表示为向量(d1,d2,...,dn

           pi = P(di=1|R)       1-pi =  P(di=0|R)

           qi = P(di=1|NR)     1-q=  P(di=0|NR)

       

                对这个式子取对数:

    如何得到初始的R和NR

            pi=c     ,        c通常取0.5

               qi=ni/N          ni表示有di出现的文档的个数,N表示整个文档集数量。

    improve it:

              对一个查询q,根据初始的R和NR,可以得到前k个返回结果。然后把这k个结果加入R集中。此时,概率计算方法为:

              

                pi = P(di | R) = si / t

             qi = P(di | NR) = (ni - si) / (N - t)

             si表示的是t个文档中包含di的个数

    平滑

              pi  =  (si+0.5)/(t+1)

              qi  =  ((ni - si+0.5) / (N - t+1))

    加权

               

                将上式的di换成wi.di表示词语di出现则为1,不出现则为0

                 

               BM25加权方法

  • 相关阅读:
    CXF对Interceptor拦截器的支持
    SpringBoot 自定义Banner
    Spring Boot应用的后台运行配置
    CXF 开发 REST 服务
    CXF SOAP 及其安全控制
    Cxf 自动生成客户端服务端代码
    跨域的另一种解决方案CORS(CrossOrigin Resource Sharing)跨域资源共享
    从 MVC 到前后端分离
    远程通信的几种选择(RPC,Webservice,RMI,JMS的区别)
    MYSQL
  • 原文地址:https://www.cnblogs.com/leeshum/p/4889886.html
Copyright © 2011-2022 走看看