特征权重量化 TF-IDF 用于信息检索和数据挖掘的加权技术 - 走看看

zoukankan html css js c++ java

特征权重量化 TF-IDF 用于信息检索和数据挖掘的加权技术

TFIDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

TF是指在一个文档中出现的词的频率，词的次数初一所有的词数　

而IDF是所有的文档中出现该词的次数越多，则权重就越小。。逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：

最后的相关性的计算

，上述相关性计算的公式就由词频的简单求和变成了加权求和，即 TF1*IDF1 +　TF2*IDF2 +... + TFN*IDFN。。

查看全文

相关阅读:
数字图像-概述
 Python-python打包编译成pyd或者.so，保护代码。
计算机组成原理-概述
 9大开源云管理平台（CMP）
计算机组成原理-CPU-CPU知识科普：秒懂主频、核心、线程、缓存、架构详解
 svn git协同管理
 DEVTMPFS
关于flash擦除的方法
 SQLServer强制保存
 360极速浏览器无法正确getHours

原文地址：https://www.cnblogs.com/fxd-address/p/5022140.html

Copyright © 2011-2022 走看看