zoukankan      html  css  js  c++  java
  • TF-IDF学习

    文本特征提取

    1.切开文本中的每个词,我们把这个叫分词

    2.每一个文本都用一组词对应的数值来表示它,这就变成结构化数据了。每个词对应的数值就是该词在文本中出现的次数。

    3.上述的这种对文本的特征表示方法就称为“词袋”模型, 词袋的英文是Bag of Words,所以有时候又把词袋叫 BOW

          不是每一个文本都包含了所有的词,所有没有出现在文本中的词他们对应的数值我们就用0表示,往往真实的场景下,要分析的文本成千上万,所以所有文 本中包含的词是非常多的,英文一般常用词就有10万个 中文也有几万个。我们把用来表示文本特征的这些词叫词 典,当然为了减少数据量,我们不会选择那么多词作为词典,一般来说选择所有文本中出现次数最多的前几百个词作为词典就可以了,其余的词我们可以合并起来,归为其他。

  • 相关阅读:
    django配置日志
    drf6
    drf4
    drf3
    drf2
    drf1
    vue2
    vue3
    vue1
    choices字段、mtv和mvc模型、ajax基本语法、sweetalert弹出框插件、自定义分页器
  • 原文地址:https://www.cnblogs.com/ICDTAD/p/14941466.html
Copyright © 2011-2022 走看看