1. 相关性:主题相关和用户相关
2.相关性是二元相关还是多元相关
信息检索模型
早期信息检索模型是布尔模型和向量空间模型,现在是概率模型;布尔检索通过在检索中加入AND、OR、NOT,临近运算操作符和通配符也常用于布尔查询中。该应用主要是论文查询,缺点是主要依赖与用户的查询行为。没有复杂的排序过程。
向量空间模型,这个模型简单直观、实现的框架便于进行词项额加权、排序和相关反馈工作。Di=(di1,di2.....din).期中di表示第j个词项的权值,一个包含n个文档的数据集词项的权值是通过简单的计算词项在文档中出现的次数来获得。基于这种标识,文档可以通过计算标识文档和查询之间的距离来排序、使用相似度计算、最成功的方法是余弦相似度:,计算TF-IDF:TFik=Fik/(Fij...);tfik是词项在文档Di中出现的频率,后面是词项k在文档中出现的次数;倒置文档频率;
概率模型
通过贝叶斯法则计算概率,词项概率;引入二元检索模型,区分相关性和非相关性文档集;
BM25排序算法:加入文档的权值和查询项的权值;扩展了二元独立模型的得分函数。通过对得分函数计算排序每个文档,排序高的文档满足检索要求;
查询项的似然排序;
Jelinek-Mercer:
狄利克雷平滑系数:
相关性模型和伪相关性模型:
KL-分散度:
复杂查询和证据整合:
推理网络模型:
在搜索中用于学习排序函数最著名的方法是基于支持向量机的分类器