zoukankan      html  css  js  c++  java
  • 常见统计模型

    统计语言模型

    抽取概率:在一个文档DOC中随机抽取了一个词Word,被抽中的概率。

    用户搜索W1、W2,W1在Doc1中的抽取概率为1%,W2的抽取概率为2%,则本次搜索中,Doc1的相关性的分为1%*2%,依次可以计算出所有文档的相关性得分,并按相关性对搜索结果进行排序。

    特点:与BM25效果相当,但需要使用大量文档语料库来训练,语料库最好与使用场景比较相似。

    布尔模型

    苹果 AND 公司:表示既包含“苹果”,有包含“公司”,这两个词的文档。
    苹果 OR 公司:表示搜索包含“苹果”或者“公司”这两个词中任意一个的文档。
    特点:简单粗暴。

    BIM模型

    BIM:按照文档中含有关键词的数量和词在文档中出现的频率,确定权重。
    BM25:在BIM的基础上增加了:

    1. 搜索词在文档中的权重。
    2. 搜索词本身的权重。

    BM25F:在BM25的基础上增加了考虑文档中不同字段的权重。
    BM25F是最常见的商业模型。

  • 相关阅读:
    webpack打包踩坑记录
    node笔记
    你真的会Xilinx FPGA的复位吗?
    Verilog 99题之001-009
    数字电路基础
    跨时钟域处理
    时序逻辑电路基础
    FPGA&ASIC基本开发流程
    关于FPGA的一些小见解
    基于FPGA的I2C读写EEPROM
  • 原文地址:https://www.cnblogs.com/lqysfu/p/12166267.html
Copyright © 2011-2022 走看看