Lucene TF-IDF 相关性算分公式(转)

zoukankan html css js c++ java

Lucene TF-IDF 相关性算分公式(转)
Lucene在进行关键词查询的时候，默认用TF-IDF算法来计算关键词和文档的相关性，用这个数据排序

TF:词频,IDF：逆向文档频率，TF-IDF是一种统计方法，或者被称为向量空间模型,名字听起来很复杂，但是它其实只包含了两个简单规则
1. 某个词或短语在一篇文章中出现的次数越多，越相关
2. 整个文档集合中包含某个词的文档数量越少，这个词越重要
所以一个term的TF-IDF相关性等于 TF * IDF

这两个规则非常简单，这就是TF-IDF的核心规则，第二个的规则其实有缺陷的，他单纯地认为文本频率小的单词就越重要，文本频率大的单词就越无用，显然这并不是完全正确的。并不能有效地反映单词的重要程度和特征词的分布情况，比如说搜索web文档的时候，处于HTML不同结构的特征词中对文章内容的反映程度不同，应该有不同的权重

TF-IDF的优点是算法简单，运算速度很快

Lucene为了提高可编程行，在上述规则做了一些扩充，就是加入一些编程接口，对不同的查询做了权重归一化处理，但是核心公式还是TF * IDF

Lucene算法公式如下

score(q,d) = coord(q,d) · queryNorm(q) · ∑ ( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) )
- tf(t in d ), = frequency½
- idf(t) = 1 +log(文档总数/(包含t的文档数+1))
- coord(q,d) 评分因子,。越多的查询项在一个文档中，说明些文档的匹配程序越高，比如说，查询"A B C",那么同时包含A/B/C3个词的文档是3分，只包含A/B的文档是2分，coord可以在query中关掉的
- queryNorm(q)查询的标准查询，使不同查询之间可以比较
- t.getBoost() 和 norm(t,d) 都是提供的可编程接口，可以调整 field/文档/query项的权重
各种编程插口显得很麻烦，可以不使用，所以我们可以把Lucence的算分公式进行简化

score(q,d) = coord(q,d) · ∑ ( tf(t in d) · idf(t)2 )

结论
1. TF-IDF 算法是以 term为基础的，term就是最小的分词单元，这说明分词算法对基于统计的ranking无比重要，如果你对中文用单字切分，那么就会损失所有的语义相关性，这个时候搜索只是当做一种高效的全文匹配方法
2. 按照规则1 某个词或短语在一篇文章中出现的次数越多，越相关 一定要去除掉stop word，因为这些词出现的频率太高了，也就是TF的值很大，会严重干扰算分结果
3. TF和IDF在生成索引的时候，就会计算出来： TF会和DocID保存在一起(docIDs的一部分)，而IDF= 总文档数 / 当前term拥有的docIDs 长度
本文地址: http://lutaf.com/210.htm 鲁塔弗原创文章，欢迎转载，请附带原文链接
查看全文

相关阅读:
Linux内核学习笔记（6）-- 进程优先级详解（prio、static_prio、normal_prio、rt_priority）
Cuteftp连接虚拟机Centos7
Linux内核学习笔记（5）-- 进程调度概述
 Linux内核学习笔记（4）-- wait、waitpid、wait3 和 wait4
Linux内核学习笔记（3）-- 进程的创建和终结
 Linux内核学习笔记（2）-- 父进程和子进程及它们的访问方法
 Linux内核学习笔记（1）-- 进程管理概述
 汇编基础--标识符、标号、伪指令和指令
 JAVA学习笔记--正则表达式
 JAVA学习笔记--字符串概述

原文地址：https://www.cnblogs.com/likehua/p/4403059.html

Lucene TF-IDF 相关性算分公式(转)

结论