TF, IDF和TF-IDF - 走看看

zoukankan html css js c++ java

TF, IDF和TF-IDF

在相似文本的推荐中，可以用TF-IDF来衡量文章之间的相似性。

一、TF（Term Frequency）

TF的含义很明显，就是词出现的频率。

公式：

在算文本相似性的时候，可以采用这个思路，如果两篇文章高频词很相似，那么就可以认定两片文章很相似。

二、IDF（Inverse Document Frequency）

IDF为逆文档频率。

公式：

一个词越在语料库出现的次数越多，则权重应该越不重要；反之越少则应该越重要。

比如，如果要检索两个文档的相似度，通过统计权重大的词来进行匹配更为合理，如果统计词频高的词汇，例如很多文章都有（如果，很多，反之这些词汇），那么根本就抓不住相似性的衡量指标。如果两篇描述动物的文章我们如果能统计一些共有的权重较高的词，例如（海洋，鱼）等等则相对来说能更好的当作相似指标来进行计算。

三、TF-IDF

目的：综合考虑TF和IDF。

公式：

当一个词的词频很高并且逆文档率很高则越能代表这片文章的内容。

谢谢！

查看全文

相关阅读:
FPGA在其他领域的应用(一)
FPGA IN 消费电子
 FPGA IN 金融领域
 FPGA与PCI-E
FPGA与数字信号处理
 FPGA与数字图像处理技术
 FPGA与安防领域
 FPGA在电平接口领域的应用
 FPGA与Deep Learning
FPGA多时钟处理应用

原文地址：https://www.cnblogs.com/ylxn/p/10213420.html

Copyright © 2011-2022 走看看