TFIDF||向量空间模型||余弦相似度

zoukankan html css js c++ java

TFIDF||向量空间模型||余弦相似度

TF-IDF值：http://www.cnblogs.com/iwaitu/archive/2011/12/28/2304714.html

         一种统计方法，用于评估一个词对N篇文章中的一篇的重要性。一个词在一片文章中出现的次数不能表明该词的重要性，例如：“我们”，“的”等，所以需要TF-IDF值来表示该词的重要性。

         TF（Term Frequency）词频：该文章中出现该词的次数除以文章总词数。

         IDF（Inverse Document Frequency）逆向文档词频:IDF=log(D/Dt),即总文章数（D）除以该词出现的文章数（Dt），对商取对数(log)

         TF-IDF = TF值 * IDF值

         如：在1000篇文章中，其中一篇共分得100关键词，其中“互联网”一词出现了5次，那么该词的词频为TF=5/100=0.05.如果该词出现在200篇文章中，那么逆向文档词频为IDF=log(1000/200)=2.12,最后TF-IDF值为TF-IDF=0.05*2.12=0.106。

         对于“我们”，“的”等一些常见词语的TF-IDF值较低的原因在于出现这些词的文章数较多，那么D/Dt值就会较小，导致IDF值较小，所以这些常见词的TF-IDF值较小，对于一篇文章的重要性也就较低了。

向量空间模型（VSM）:

http://www.cnblogs.com/hql5202004/archive/2009/04/09/1432543.html

         向量空间模型：在向量空间模型中，文本用D（Document）表示，特征项（Term）用t表示，特征项指出现在文本D中并能够代表文本D的内容的基本语言单位，可以由词或者短句构成。文本可以用特征项进行表示D(t1,t2,t3…tn),其中ti（1<=k<=n）表示特征项。通常在建立向量空间模型时，一般都会给每个特征项一个权值来表示该特征项对该文本的重要性，权值的取定有多种方式，常见的就是取TF-IDF值。即D(t1,w1,t2,w2,t3,w3,…tn,wn),可简化为D(w1,w2,w3…wn)，我们把这个称为该文本的向量表示。如：某文本的特征项为a,b,c,d,权值为：40，30，20，10。那么该文本的向量表示为D（40，30，20，10）。

余弦相似度：

         在向量空间模型中，两个文本D1和D2之间的内容相关度Sim(D1，D2)常用向量之间夹角的余弦值表示，公式为：

简化点就是：
其中D1，D2为文本D1，D2的向量表示，|D1|，|D2|分别表示向量D1，D2的模。例如文本D1的特征项为a，b，c，d，权值分别为30，20，20，10，类目C1的特征项为a，c，d，e，权值分别为40，30，20，10，则D1的向量表示为D1(30,20,20,10,0),C1的向量表示为C1（40，0，30，20，10）【此处两个文本的向量表示的特征项为两文本特征项的并集，一文本中没有该特征项则值为0】，则根据上式计算出来的文本D1与类目C1相关度Sim（D1，D2）= 0.86。

相关数学知识：

在数学当中，n维向量是 V{v1, v2, v3, ..., vn}
他的模： |v| = sqrt ( v1*v1 + v2*v2 + ... + vn*vn )
两个向量的点击 m*n = n1*m1 + n2*m2 + ...... + nn*mn

查看全文

相关阅读:
Thinkphp绕过宝塔getshell
论一句话过WAF
JDK源码那些事儿之传说中的AQS-独占锁
 JDK源码那些事儿之传说中的AQS-概览
 JDK源码那些事儿之LockSupport
JDK源码那些事儿之万物之源Object
JDK源码那些事儿之神秘的ThreadLocal下篇
 JDK源码那些事儿之神秘的ThreadLocal上篇
 JDK源码那些事儿之FutureTask
JDK源码那些事儿之ThreadPoolExecutor

原文地址：https://www.cnblogs.com/MonkeyF/p/2748706.html