TF-IDF 简介
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词。
TF-IDF有两层意思,一层是"词频"(Term Frequency,简称TF),另一层是"逆文档频率"(Inverse Document Frequency,简称IDF)。
TF IDF的计算方法
词频,某个词出现在所在文档的次数,这里简单理解为词出现的次数越多,越重要,当然排除停用词,就是“的”,“了”,这一类型的修饰词。
[TF = 某词在文章中出现的次数
]
考虑到文章有长短之分,为了便于不同文章的比较,进行词频TF标准化:
[TF = frac{某词文章中出现的次数}{该文章的总词数}
]
[IDF = log(frac{N}{df + 1})
]
N表示语料库中文章的总数,df表示包含该词的文档数, 加 1的作用是为了防止 df = 0的情况
该词出现的次数越多,分母就越大,取对数的值就越小,说明这个词在所有文章中的重要程度就越小
[TF-IDF = TF imes IDF
]
说明:词的重要性,随着在文档中出现的次数增多变大,随着在所有文档中的出现次数增加而变小