用TFIDF值来判断词的重要性

zoukankan html css js c++ java

用TFIDF值来判断词的重要性

TF-IDF（term frequency–inverse document frequency）是一种统计方法，用于评估一个词对N篇文章或一个语料库中其中一篇文章的重要性。

一个词在一篇文章中出现的次数并不能表明该词的重要性，例如“我们”，“的”这种常见词，我们需要TF-IDF统计方法。

词的重要度随着它在一篇文章中出现的次数成正比增加，但同时会随着它在N篇文章（文章集合）中出现的频率成反比下降。

在一篇给定的文章中，词频(term frequency, TF)指的是该文章中某个词出现的次数除以该文章的总词数。

逆向文档频率（inverse document frequency, IDF）是一个词普遍重要性的度量，某一特定词的IDF值，用总文件数除以包含该词的文章数量，再将得到的商取对数(log)。计算公式：IDF = log(D/Dt)，D为文章总数，Dt为该词出现的文章数量。

TF-IDF值 = TF值 * IDF值

假如测试语料库中共有1000篇文章，其中一篇文章共分得100个词，其中“互联网”一词出现了5次，那么“互联网”一词在该文章中的TF值（词频）就是 5/100 = 0.05。

如果“互联网”一词共出现在200篇文章中，那么该词的IDF值 log(1000/200) = 2.12，该词的TF-IDF值 0.05 * 2.12 = 0.106

再举一个常用词例子，假如“我们”在该篇文章中出现了30次，该文章共分得100个词，那么该词的词频为 30/100 = 0.3。如果“我们”一共出现在了900篇文章中，那么该词的IDF值 log(1000/900) = 0.1，该词的TF-IDF值 0.3 * 0.1 = 0.03。

由于“互联网”一词的TF-IDF值比“我们”要大，所以我们认为““互联网”一词的重要度要高于“我们”。

查看全文

相关阅读:
IBM Personal Communications 软件：精简绿色版TN3270终端模拟器：经测试可以在（winxp、win2003、win764）上运行
 virtualbox谨记：续....
Eclipse连接MySQL数据库
 shell几种字符串加密解密的方法
 表达式语言引擎：Apache Commons JEXL 2.1 发布
 一种表达式语言的解析引擎JEXL简单使用
 Java 实现String语句的执行（Jexl）
JUnit4
EL表达式
 Looping through the content of a file in Bash

原文地址：https://www.cnblogs.com/iwaitu/p/2304714.html