TF-IDF(term frequency–inverse document frequency)是一种统计方法,用于评估一个词对N篇文章或一个语料库中其中一篇文章的重要性。
一个词在一篇文章中出现的次数并不能表明该词的重要性,例如“我们”,“的”这种常见词,我们需要TF-IDF统计方法。
词的重要度随着它在一篇文章中出现的次数成正比增加,但同时会随着它在N篇文章(文章集合)中出现的频率成反比下降。
在一篇给定的文章中,词频(term frequency, TF)指的是该文章中某个词出现的次数除以该文章的总词数。
逆向文档频率(inverse document frequency, IDF)是一个词普遍重要性的度量,某一特定词的IDF值,用总文件数除以包含该词的文章数量,再将得到的商取对数(log)。计算公式:IDF = log(D/Dt),D为文章总数,Dt为该词出现的文章数量。
TF-IDF值 = TF值 * IDF值
假如测试语料库中共有1000篇文章,其中一篇文章共分得100个词,其中“互联网”一词出现了5次,那么“互联网”一词在该文章中的TF值(词频)就是 5/100 = 0.05。
如果“互联网”一词共出现在200篇文章中,那么该词的IDF值 log(1000/200) = 2.12,该词的TF-IDF值 0.05 * 2.12 = 0.106
再举一个常用词例子,假如“我们”在该篇文章中出现了30次,该文章共分得100个词,那么该词的词频为 30/100 = 0.3。如果“我们”一共出现在了900篇文章中,那么该词的IDF值 log(1000/900) = 0.1,该词的TF-IDF值 0.3 * 0.1 = 0.03。
由于“互联网”一词的TF-IDF值比“我们”要大,所以我们认为““互联网”一词的重要度要高于“我们”。