统计语言模型
抽取概率:在一个文档DOC中随机抽取了一个词Word,被抽中的概率。
用户搜索W1、W2,W1在Doc1中的抽取概率为1%,W2的抽取概率为2%,则本次搜索中,Doc1的相关性的分为1%*2%,依次可以计算出所有文档的相关性得分,并按相关性对搜索结果进行排序。
特点:与BM25效果相当,但需要使用大量文档语料库来训练,语料库最好与使用场景比较相似。
布尔模型
苹果 AND 公司
:表示既包含“苹果”,有包含“公司”,这两个词的文档。
苹果 OR 公司
:表示搜索包含“苹果”或者“公司”这两个词中任意一个的文档。
特点:简单粗暴。
BIM模型
BIM:按照文档中含有关键词的数量和词在文档中出现的频率,确定权重。
BM25:在BIM的基础上增加了:
- 搜索词在文档中的权重。
- 搜索词本身的权重。
BM25F:在BM25的基础上增加了考虑文档中不同字段的权重。
BM25F是最常见的商业模型。