zoukankan      html  css  js  c++  java
  • TF-IDF 相关概念

    概念

    TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

    TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

    词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。

    逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

    原理 

    TF-IDF 的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

    (字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。)

    计算

     

    上式子中:分子是是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。


    上式子中:分子是语料库中的文件总数,分母是包含改词的文件数目。(因为如果该词语不在语料库中,就会导致被除数为零,因此一般情况下会对分母加1进行计算)


    TF-IDF等于词频乘以逆向文件频率

  • 相关阅读:
    HTML5中的Range对象的研究
    浅谈移动端开发页面
    你所不了解的javascript操作DOM的细节知识点(一)
    理解Javascript的动态语言特性
    webview与JS的交互
    javascript客户端检测技术
    逐渐深入地理解Ajax
    html5获取地理位置信息API
    Javascript中的Form表单知识点总结
    go语言基础之不同目录
  • 原文地址:https://www.cnblogs.com/relucent/p/4520029.html
Copyright © 2011-2022 走看看