zoukankan      html  css  js  c++  java
  • 关于TF-IDF的解释

    TF:term frequency ,词频 。指的是 term 出现的评率。词频和 2 个因数有关,在一个文档中出现这个词条次数越多,词频越高,文档总词条总数越多这个值被稀释。

    所以  一般 TF = 词条在文档出现的次数 / 文档总词数。

    IDF:倒排索引的频率。 log (   docment 数量/ (出现这个词条的 文档数 +1) ), IDF 描述的是 某个词在 倒排索引中的频率,说白了就是描述这词条在 倒排 所占的权重(相对所有词的权重)。这个权重乘 TF 就是这个 docment 的评分。

    我们可以想想, 词条在倒排索引里面的频率,只和2 个因数有关。如果 出现这个词条的 文档越多,频率越高,如果文档数量越多,这个会被稀释。至于为什么要 用  log (   docment 数量/ (出现这个词条的 文档数 +1) ) ,而不是  使用  出现 出现这个词条的 文档数 /docment 数量 。我就不清楚了。

    备注:term,在 而是 里面你是一个  不分词的 最小词条。

  • 相关阅读:
    4-数组、指针与字符串1.3-this指针
    Linux命令----cp
    Linux命令----mv
    Linux命令----rm
    PHP7下的协程实现 转
    php生成器 yield 转
    python并发编程之多进程(实践篇) 转
    python 多进程
    线程创建 线程数
    多任务 执行
  • 原文地址:https://www.cnblogs.com/cxygg/p/9876853.html
Copyright © 2011-2022 走看看