概念
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。
逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
原理
TF-IDF 的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
(字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。)
计算
上式子中:分子是是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。
上式子中:分子是语料库中的文件总数,分母是包含改词的文件数目。(因为如果该词语不在语料库中,就会导致被除数为零,因此一般情况下会对分母加1进行计算)
TF-IDF等于词频乘以逆向文件频率