zoukankan      html  css  js  c++  java
  • TFIDF||向量空间模型||余弦相似度

    TF-IDFhttp://www.cnblogs.com/iwaitu/archive/2011/12/28/2304714.html

             一种统计方法,用于评估一个词对N篇文章中的一篇的重要性。一个词在一片文章中出现的次数不能表明该词的重要性,例如:“我们”,“的”等,所以需要TF-IDF值来表示该词的重要性。

             TF(Term Frequency)词频:该文章中出现该词的次数除以文章总词数。

             IDF(Inverse Document Frequency)逆向文档词频:IDF=log(D/Dt),即总文章数(D)除以该词出现的文章数(Dt),对商取对数(log)

             TF-IDF = TF * IDF

             如:在1000篇文章中,其中一篇共分得100关键词,其中“互联网”一词出现了5次,那么该词的词频为TF=5/100=0.05.如果该词出现在200篇文章中,那么逆向文档词频为IDF=log(1000/200)=2.12,最后TF-IDF值为TF-IDF=0.05*2.12=0.106。

             对于“我们”,“的”等一些常见词语的TF-IDF值较低的原因在于出现这些词的文章数较多,那么D/Dt值就会较小,导致IDF值较小,所以这些常见词的TF-IDF值较小,对于一篇文章的重要性也就较低了。

    向量空间模型(VSM):

    http://www.cnblogs.com/hql5202004/archive/2009/04/09/1432543.html

             向量空间模型:在向量空间模型中,文本用D(Document)表示,特征项(Term)用t表示,特征项指出现在文本D中并能够代表文本D的内容的基本语言单位,可以由词或者短句构成。文本可以用特征项进行表示D(t1,t2,t3…tn),其中ti(1<=k<=n)表示特征项。通常在建立向量空间模型时,一般都会给每个特征项一个权值来表示该特征项对该文本的重要性,权值的取定有多种方式,常见的就是取TF-IDF值。即D(t1,w1,t2,w2,t3,w3,…tn,wn),可简化为D(w1,w2,w3…wn),我们把这个称为该文本的向量表示。如:某文本的特征项为a,b,c,d,权值为:40,30,20,10。那么该文本的向量表示为D(40,30,20,10)。

    余弦相似度:

             在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示,公式为:

    简化点就是 
    其中D1,D2为文本D1,D2的向量表示,|D1|,|D2|分别表示向量D1,D2的模。例如文本D1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C1的特征项为a,c,d,e,权值分别为40,30,20,10,则D1的向量表示为D1(30,20,20,10,0),C1的向量表示为C1(40,0,30,20,10)【此处两个文本的向量表示的特征项为两文本特征项的并集,一文本中没有该特征项则值为0】,则根据上式计算出来的文本D1与类目C1相关度Sim(D1,D2)= 0.86。

    相关数学知识:

    在数学当中,n维向量是 V{v1, v2, v3, ..., vn}
    他的模: |v| = sqrt ( v1*v1 + v2*v2 + ... + vn*vn )
    两个向量的点击 m*n = n1*m1 + n2*m2 + ...... + nn*mn

  • 相关阅读:
    iOS NSData简单解析
    CocoaPods安装和使用教程
    iOS_ruby环境的配置
    ios进行打包
    Missing iOS Distribution signing identity问题解决
    iOS 打包
    效果类似于label从下往上滑(采用uiTableView实现)
    IOS开发效率之为Xcode添加常用的代码片段
    JS中!!的用法
    java 短路与(||)时报错The operator || is undefined for the argument type(s) int, boolean
  • 原文地址:https://www.cnblogs.com/MonkeyF/p/2748706.html
Copyright © 2011-2022 走看看