zoukankan      html  css  js  c++  java
  • TF-IDF学习

    我们使用词在文本中出现的次数作为特征值,这个特征值我们也称为词权重。除了使用次数,一般还有三种方法:

    1.Bool 表示:即词在文本中出现过则记为 1,没出现则记为 0,忽略了词出现的次数。

    2. 词频(Term Frequency):就是词在文本中出现的次数 TF

    3. TF-IDF

    TF-IDF算法

    TF(term frequency):词频,某个词在文档中出现的次数,TF 越 大一般来说越重要

    DF(document frequency):文档频率,某个词在所有文档中出现 的文档数,DF 越大表示这个词越有可能是常用词,自然也越不重要

    IDF(inverse document frequency):逆文档频率,它是 DF 的 倒数,IDF 越大表示该词越少见,也越重要

    TF-IDF :TF * IDF,综合了 TF 和 IDF 两个因素来平衡词的重要性

  • 相关阅读:
    简单破解.net(C#)程序
    URL和URI
    Java JDK安装和配置(Windows)
    函数式编程语言
    Http
    drf 序列化获取商品分类数据
    npm install 安装依赖报错
    27-----BBS论坛
    26-----BBS论坛
    25-----BBS论坛
  • 原文地址:https://www.cnblogs.com/ICDTAD/p/14941500.html
Copyright © 2011-2022 走看看