zoukankan      html  css  js  c++  java
  • TF-IDF

     

    词袋模型

      如上图所示,计算机不能直接识别文字信息,它会把上面的两句话转换成词频向量来表示,就是每组词在这个句子中出现的次数,但是它并不考虑词的先后顺序,这种模型就叫词袋模型。 

      上图中表示每个词的出现的数量作为向量的,就叫人词频向量

      

    jieba分词三种模式:

      1、精确模式:试图将句子精确地分开,适合文本分析

      2、全模式:把句子中所有可以成词的词语都分开,速度快,但不能解决歧义

      3、搜索引擎模式:在精确模式的基础上对长词再次切分,适合搜索引擎分词

    TF-IDF模型

      TF(term frequency):表示词频,某个词在文档中出现的次数

      DF(doucument frequency):某个词在所有文档中出现的文档数

      IDF(inverse doucument frequency):逆文档频率,它是DF的倒数,IDF越大表示该词越少见,也即越重要

      TF-IDF: TF*IDF综合了TF和IDF的因素来平衡词的重要性

     

     

  • 相关阅读:
    1.2c#变量和运算符及注释
    1.1c#初识
    约数个数定理
    莫比乌斯反演
    欧几里得/拓展欧几里得
    中国剩余定理【数论】
    欧拉定理/欧拉函数【数论】
    费马小定理【数论】
    同余定理【数论】
    Java class 和public class 区别
  • 原文地址:https://www.cnblogs.com/baoxuhong/p/10274965.html
Copyright © 2011-2022 走看看