搜索核心原理之网页和查询的相关性——TF-IDF

zoukankan html css js c++ java

搜索核心原理之网页和查询的相关性——TF-IDF

1.相关性的演进：

i.单文本词频TF（Term Frequency）

用关键词的出现的次数除以文章的总次数，做归一化处理得到TF，来屏蔽文章长度对用关键词出现次数来衡量相关性时的影响

ii.搜索关键词权重的度量IDF：

需要给每个此赋以权重，来区分查询中词的重要性：

a.一个词预测主题的能力越强，其权重越大

b.停止词（的是和这类无用词）的权重为0

逆文本频率指数IDF（Inverse Document Frequency）：公式为log(D/Dw)，其中一个关键词在Dw个网页中出现过，Dw越大，词w的权重越小

iii.相关性的度量（TF-IDF：Term Frequency/Inverse Document Frequency）：

词频的加权求和：∑TF(w)*IDF(w)

2.TF-IDF的信息量依据

i.查询中每个关键词w的权重应该反映这个词对这个查询提供了多少信息，用此的信息量来作为权重：

I(w)=-P(w)logP(w)=-(TF(w)/N)*log(TF(w)/N)

而语料库此的总数N是一定的，所以I(w)=-TF(w)*log(TF(w)/N)

漏洞：一个词在一篇文献中出现TF次和一个词在所有文献中出现TF次，信息量是一样的

ii.提出假设：

a.每篇文章的大小基本相同，均为M个词，M=N/D

b.假设在一篇文章中关键词出现的次数，与其贡献无关，那么一个词在一篇文献中出现的平均次数C(w)=TF(w)/D(w)，C(w)<M

则-TF(w)*log(TF(w)/N)=TF(w)*log(N/TF(w))=TF(w)*log(MD/C(w)D(w))=TF(w)*log(D/D(w))+TF(w)*log(M/C(w))

即I(w)=TF-IDF+TF(w)*log(M/C(w))，有TF-IDF=I(w)-TF(w)*log(M/C(w))

显然，IDF与词的信息量成正比，同时在w命中的文献中w出现的平均次数越多，C(w)越小，贡献越大

查看全文

相关阅读:
centos下修改ip
在sql2008的实例中编写存储过程读取版本为sql2005 的实例中的某个数据库里的数据
 解决javax.net.ssl.SSLHandshakeException: Received fatal alert: handshake_failure报错
 Micronaut事务管理
 [make] 第二章 makefile 总述
 [make] 第一章 make 介绍
 [other] AutoHotKey.ahk
2021年11月国产数据库大事记墨天轮
 风云再起之国产数据库风云榜2021年12月
 2021年12月墨天轮国产数据库排行榜: openGauss节节攀升拿下榜眼，GaussDB与TDSQL你争我夺各进一位

原文地址：https://www.cnblogs.com/uttu/p/6289756.html