zoukankan      html  css  js  c++  java
  • TF-IDF(2)

    TF-IDF介绍(详见):https://www.cnblogs.com/yhll/p/9831267.html

    例子:


      假设有一篇文章包含了10000个词组,其中“中国”、“石油”、出现100次,“开采”出现200次,“的”出现500次(假设没有去除停用词) 语料库中共有1000篇文档,其中包含“中国”的文档有99篇,包含“石油”的文档59篇,包含“开采”的文档有19篇,包含“的”的文档有999篇。


    1 计算词频

    根据公式:词频 = 某个词组在文章中出现次数/该文章总词组数:

    TF(中国)= 100/10000 = 0.01 
    TF(石油)= 100/10000 = 0.01 
    TF(开采)= 200/10000 = 0.02 
    TF(的)= 500/10000 = 0.05

     

    2 计算逆文档频率
    根据公式:逆文档频率 = log[语料库中文档总数/(包含该词组的文档数 + 1)]
    这里的log表示以10为底

    IDF(中国)= log(1000/100) = 1
    IDF(石油)= log(1000/60) = 1.221
    IDF(开采)= log(1000/20) = 1.7
    IDF(开采)= log(1000/1000) = 0

     

    由上述结果可以发现,当某个词在语料库中各个文档出现的次数越多,它的IDF值越低,当它在所有文档中都出现时,其IDF计算结果为0,而通常这些出现次数非常多的词或字为“的”、“我”、“吗”等,它对文章的权重计算起不到较大的作用。

    3 计算TF-IDF值根据公式:TF-IDF = 词频 * 逆文档频率 

    TF-IDF(中国) = 0.01 * 1 = 0.01 
    TF-IDF(石油) = 0.01 * 1.221 = 0.01221 
    TF-IDF(开采) = 0.02 * 1.7 = 0.034 
    TF-IDF(的) = 0.05 * 0 = 0

    通过计算结果可以发现,如果只选取一个关键词,则整篇文章是关于“开采”的;如果选取两个关键词,则整篇文章是关于“开采”、“石油”的。

     

     

  • 相关阅读:
    OO第二单元总结-上上下下的快乐
    OO第一单元总结
    OO第四单元博客作业
    OO第三单元博客作业
    OO第二单元博客作业
    OO第一次博客作业
    Python Selenium实现浏览器自动化操作
    Python命名规范
    OO_UNIT4 & OO_2020 SUMMARY
    OO_UINT3_2020
  • 原文地址:https://www.cnblogs.com/yhll/p/9831731.html
Copyright © 2011-2022 走看看