zoukankan      html  css  js  c++  java
  • tf-idf介绍

    TF-IDF 简介

    TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词。

    TF-IDF有两层意思,一层是"词频"(Term Frequency,简称TF),另一层是"逆文档频率"(Inverse Document Frequency,简称IDF)。

    TF IDF的计算方法

    词频,某个词出现在所在文档的次数,这里简单理解为词出现的次数越多,越重要,当然排除停用词,就是“的”,“了”,这一类型的修饰词。

    [TF = 某词在文章中出现的次数 ]

    考虑到文章有长短之分,为了便于不同文章的比较,进行词频TF标准化:

    [TF = frac{某词文章中出现的次数}{该文章的总词数} ]

    [IDF = log(frac{N}{df + 1}) ]

    N表示语料库中文章的总数,df表示包含该词的文档数, 加 1的作用是为了防止 df = 0的情况
    该词出现的次数越多,分母就越大,取对数的值就越小,说明这个词在所有文章中的重要程度就越小

    [TF-IDF = TF imes IDF ]

    说明:词的重要性,随着在文档中出现的次数增多变大,随着在所有文档中的出现次数增加而变小

    参考文献

    [1] https://zhuanlan.zhihu.com/p/31197209(此博文基本来自此文)

  • 相关阅读:
    web10 动态action的应用
    web09 struts2配置 struts2入门
    web 08 struts2入门 struts2配置 struts包
    web07-jdbcBookStore
    web06-PanduanLogin
    web05-CounterServlet
    web04-LoginServlet
    web03-OutputInfo
    web02-welcomeyou
    web01-helloworld
  • 原文地址:https://www.cnblogs.com/ahpucd/p/13520919.html
Copyright © 2011-2022 走看看