zoukankan      html  css  js  c++  java
  • TFIDF||向量空间模型||余弦相似度

    TF-IDFhttp://www.cnblogs.com/iwaitu/archive/2011/12/28/2304714.html

             一种统计方法,用于评估一个词对N篇文章中的一篇的重要性。一个词在一片文章中出现的次数不能表明该词的重要性,例如:“我们”,“的”等,所以需要TF-IDF值来表示该词的重要性。

             TF(Term Frequency)词频:该文章中出现该词的次数除以文章总词数。

             IDF(Inverse Document Frequency)逆向文档词频:IDF=log(D/Dt),即总文章数(D)除以该词出现的文章数(Dt),对商取对数(log)

             TF-IDF = TF * IDF

             如:在1000篇文章中,其中一篇共分得100关键词,其中“互联网”一词出现了5次,那么该词的词频为TF=5/100=0.05.如果该词出现在200篇文章中,那么逆向文档词频为IDF=log(1000/200)=2.12,最后TF-IDF值为TF-IDF=0.05*2.12=0.106。

             对于“我们”,“的”等一些常见词语的TF-IDF值较低的原因在于出现这些词的文章数较多,那么D/Dt值就会较小,导致IDF值较小,所以这些常见词的TF-IDF值较小,对于一篇文章的重要性也就较低了。

    向量空间模型(VSM):

    http://www.cnblogs.com/hql5202004/archive/2009/04/09/1432543.html

             向量空间模型:在向量空间模型中,文本用D(Document)表示,特征项(Term)用t表示,特征项指出现在文本D中并能够代表文本D的内容的基本语言单位,可以由词或者短句构成。文本可以用特征项进行表示D(t1,t2,t3…tn),其中ti(1<=k<=n)表示特征项。通常在建立向量空间模型时,一般都会给每个特征项一个权值来表示该特征项对该文本的重要性,权值的取定有多种方式,常见的就是取TF-IDF值。即D(t1,w1,t2,w2,t3,w3,…tn,wn),可简化为D(w1,w2,w3…wn),我们把这个称为该文本的向量表示。如:某文本的特征项为a,b,c,d,权值为:40,30,20,10。那么该文本的向量表示为D(40,30,20,10)。

    余弦相似度:

             在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示,公式为:

    简化点就是 
    其中D1,D2为文本D1,D2的向量表示,|D1|,|D2|分别表示向量D1,D2的模。例如文本D1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C1的特征项为a,c,d,e,权值分别为40,30,20,10,则D1的向量表示为D1(30,20,20,10,0),C1的向量表示为C1(40,0,30,20,10)【此处两个文本的向量表示的特征项为两文本特征项的并集,一文本中没有该特征项则值为0】,则根据上式计算出来的文本D1与类目C1相关度Sim(D1,D2)= 0.86。

    相关数学知识:

    在数学当中,n维向量是 V{v1, v2, v3, ..., vn}
    他的模: |v| = sqrt ( v1*v1 + v2*v2 + ... + vn*vn )
    两个向量的点击 m*n = n1*m1 + n2*m2 + ...... + nn*mn

  • 相关阅读:
    Android开发之Sqlite的使用
    ZOJ 3607 Lazier Salesgirl
    ZOJ 3769 Diablo III
    ZOJ 2856 Happy Life
    Ural 1119 Metro
    Ural 1146 Maximum Sum
    HDU 1003 Max Sum
    HDU 1160 FatMouse's Speed
    Ural 1073 Square Country
    Ural 1260 Nudnik Photographer
  • 原文地址:https://www.cnblogs.com/MonkeyF/p/2748706.html
Copyright © 2011-2022 走看看