tf-idf介绍 - 走看看

zoukankan html css js c++ java

tf-idf介绍

TF-IDF 简介

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术，常用于挖掘文章中的关键词。

TF-IDF有两层意思，一层是"词频"（Term Frequency，简称TF），另一层是"逆文档频率"（Inverse Document Frequency，简称IDF）。

TF IDF的计算方法

词频，某个词出现在所在文档的次数，这里简单理解为词出现的次数越多，越重要，当然排除停用词，就是“的”，“了”，这一类型的修饰词。

[TF = 某词在文章中出现的次数 ]
考虑到文章有长短之分，为了便于不同文章的比较，进行词频TF标准化：

[TF = frac{某词文章中出现的次数}{该文章的总词数} ]
[IDF = log(frac{N}{df + 1}) ]
N表示语料库中文章的总数，df表示包含该词的文档数，加 1的作用是为了防止 df = 0的情况
该词出现的次数越多，分母就越大，取对数的值就越小，说明这个词在所有文章中的重要程度就越小

[TF-IDF = TF imes IDF ]
说明：词的重要性，随着在文档中出现的次数增多变大，随着在所有文档中的出现次数增加而变小

参考文献

[1] https://zhuanlan.zhihu.com/p/31197209(此博文基本来自此文)

查看全文

相关阅读:
Python之异常篇 [待更新]
python脚本工具－ 4 获取系统当前时间
 python脚本工具－ 3 目录遍历
 数字签名和数字证书到底是个神马玩意？
CSRF攻击[转]
Python之数据结构篇
 Python之模块篇
 Python之函数篇
 python脚本工具－2 去除扩展名后提取目录下所有文件名并保存
 python脚本工具－1 制作爬虫下载网页图片

原文地址：https://www.cnblogs.com/ahpucd/p/13520919.html

Copyright © 2011-2022 走看看