我们使用词在文本中出现的次数作为特征值,这个特征值我们也称为词权重。除了使用次数,一般还有三种方法:
1.Bool 表示:即词在文本中出现过则记为 1,没出现则记为 0,忽略了词出现的次数。
2. 词频(Term Frequency):就是词在文本中出现的次数 TF
3. TF-IDF
TF-IDF算法
TF(term frequency):词频,某个词在文档中出现的次数,TF 越 大一般来说越重要
DF(document frequency):文档频率,某个词在所有文档中出现 的文档数,DF 越大表示这个词越有可能是常用词,自然也越不重要
IDF(inverse document frequency):逆文档频率,它是 DF 的 倒数,IDF 越大表示该词越少见,也越重要
TF-IDF :TF * IDF,综合了 TF 和 IDF 两个因素来平衡词的重要性