zoukankan      html  css  js  c++  java
  • 【NLP】 向量空间模型

    向量空间模型是一种比较广泛是一种用向量来表示文本的代数模型。

    在向量空间模型中,文档被表示成一个权值向量,其中的每一个权值都通过词频率表(TF),或者词逆向文档频率表(TF-IDF),或者他们的变异版本计算得到的。

    词频率表(Term Frequency(TF)Scheme):在这种方式中,文档di中token ti的权值就是在dj中ti出现的次数,被定义为fij,在此基础上还可以进行标准化。

    词逆向文档频率表(TF-IDF Scheme):这是最有名的权值表,这种表有很多种变异的版本,在这里给出最基本的形式

    在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)对于在某一特定文件里的词语 ti 来说,它的重要性可表示为:

     tfij = nij/∑knkj

    以上式子中是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。

    逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:

     idfi=log(|D|/|{j:ti∈dj}|)

    其中

    |D|:语料库中的文件总数

    |{j:ti∈dj}|:包含词语ti的文件数目(即nij≠0的文件数目)如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用1+|{j:ti∈dj}|。

    然后

     tfidfij=tfij×idfi

    某一特定文件内的高词语频率,以及该词语在整个文件集合中的低词语频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

    P.S. 自己开题报告上的,写在博客上应该没有什么问题吧~ HOHO~ 参考的维基和Web Data Mining。

    余弦相似度

    余弦相似度是向量空间模型的一种度量方式,是通过以上方法把文档转换成向量后度量两个向量之间的距离。

    cos(di,dj)=<di · dj>/( ||dj|| × ||di|| )

    例如:

    两篇文档为 (a,c) 和 (c,d),单词对应的权重两篇文章分别为:wi = (0.5, 0.2, 0.3, 0.5), wj = (0.5, 0.3, 0.5, 0.2)

    则相对应的两篇文档的向量为:di = (0.5, 0, 0.3, 0) 和 dj = (0, 0, 0.5, 0.2)

    则<di · dj>=0.5*0+0*0+0.3*0.5+0*0.2=0.15;   

    ||dj|| = sqrt{0.52+0.32}=0.583;  ||di|| = sqrt{0.52+0.22}=0.539

    那么这两篇文档的余弦相似度为:cos(di,dj)=<di · dj>/( ||dj|| × ||di|| ) = 0.15 / ( 0.583 * 0.539 ) = 0.477

  • 相关阅读:
    perl linux 编译成可执行程序
    MQSeries::Message 面向对象接口的MQSeries messages
    数据化管理第一步,你真的会做报表吗?
    数据化管理第一步,你真的会做报表吗?
    aix ipcs 官方解释
    使用jquery.qrcode生成二维码及常见问题解决方案
    案例分享|某医药集团的BI建设案例
    aix ipcs OxFFFFFFFF
    案例分享|某医药集团的BI建设案例
    地图应用之 :获取当前位置的经纬度
  • 原文地址:https://www.cnblogs.com/xiaoka/p/2288015.html
Copyright © 2011-2022 走看看