zoukankan      html  css  js  c++  java
  • TF-IDF概念

    之前就了解过TF-IDF,现在做一个回顾。

    概念:

    TF(Term Frequency)词频:一个文档中关键词出现的次数/该文档的总词数,

    IDF(Inverse Document Frequency)逆文档频率:

    如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词),这就是一个调整系数,如果某个词在语料库中总体比较少见,但是它在这篇文档里出现频率很高,那这个词就很有可能是我们需要的关键词

    得到"词频"(TF)和"逆文档频率"(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。

    人生苦短,何不用python
  • 相关阅读:
    高中数学运算能力训练题
    vue @click.native
    vue_qqmapdemo1
    vuxdemo1
    使用命令行打开vscode
    nextjs-demo
    material-ui里面的withStyles是什么?
    material(一)
    有趣的npx
    在macbookpro上开启ssh服务
  • 原文地址:https://www.cnblogs.com/yqpy/p/8629808.html
Copyright © 2011-2022 走看看